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本 书 主要 介绍 了 深度 学 习 在 计算 机 视觉 方面 的 应 用 及 工程 实践 ， 以 Python 3 为 开发 语言 ， 并 结合 
当前 主流 的 深度 学 习 框 架 进行 实例 展示 。 主 要 内 容 包 括 : OpenCV 入 门 、 深 度 学 习 框架 介绍 、 图 像 分 
类 、 目 标 检测 与 识别 、 图 像 分 割 、 图 像 搜 索 以 及 图 像 生成 等 ， 涉 及 到 的 深度 学 习 框架 包括 PyTorch、 
TensorFlow、Keras、Chainer、MXNet 等 。 通 过 本 书 ， 读 者 能 够 了 解 深度 学 习 在 计算 机 视觉 各 个 方向 
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的 应 用 以 及 最 新 进展 。 
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工程 领域 的 从 业者 、 深 度 学 习 爱好 者 、 相 关 专 业 的 大 学 生 和 研究 生 以 及 对 计算 机 视觉 感 兴趣 的 爱好 者 
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目前 人 工 智 能 领域 越 来 越 受到 公众 的 关注 ， 因 此 人 工 智能 算法 工程 师 也 渐渐 浮 出 水 
面 ， 成 为 招聘 网 站 上 一 个 非常 耀眼 的 岗位 ， 各 类 创业 投资 也 紧 紧 围绕 着 AI 主题 旋转 。 


我 认为 目前 人 工 智 能 算法 工程 师 主 要 分 为 两 类 。 


。 科学 家 型 : 主要 研究 前 沿 算法 ， 在 各 大 高 校 和 企业 的 研究 院 居 多 。 
e IRMA: 主要 将 最 新 的 算法 应 用 到 具体 的 业务 场景 ， 在 企业 开发 部 门 居多 ， 为 
本 书 主要 针对 对 象 。 


人 工 智能 算法 按 特 征 学 习 的 深浅 分 为 机 器 学 习 、 深 度 学 习 ， 另 外 也 有 强化 学 习 方 向 。 
按 应 用 场景 则 可 分 为 : 计算 机 视觉 、 自 然 语 言 和 语音 处 理 等 。 


编写 本 书 主要 基于 以 下 事实 ， 笔 者 在 学 习 机 器 学 习 和 深度 学 习 的 过 程 中 ， 发 现 理论 
方面 的 书籍 十 分 丰富 ,包括 周志 华 老师 的 《机 器 学 习 》 与 Ian Goodfellow 的 《深度 学 习 》; 
教学 视频 也 十 分 丰富 ， 包 括 斯 坦 福 大 学 吴 恩 达 教授 的 CS229 与 李 飞 飞 教授 的 CS231， 以 
及 台湾 大 学 (National Taiwan University) 林 轩 田 老 师 和 李 宏 妆 老 师 的 课程 。 但 是 很 少 有 
关于 一 个 方向 〈 比 如 计算 机 视觉 ) 比较 丰富 的 工程 应 用 书籍 ， 包 括 当 前 主流 框架 的 综合 
介绍 ， 笔 者 当时 从 理论 到 实践 走 了 不 少 弯路 ， 也 踩 过 不 少 坑 ， 故 希望 本 书 能 在 这 个 方面 
做 出 一 点 小 小 的 贡献 , 成 为 理论 与 实践 的 桥梁 ,让 读者 相对 容易 地 迈 出 由 0 到 1 的 那 一 步 。 


本 书 主要 关注 计算 机 视觉 领域 ， 基 于 开源 项 目 介绍 最 新 的 算法 ， 在 此 也 感谢 各 位 开 
源 人 士 ， 借 助 他 们 的 成 果 ， 我 们 学 习 到 了 很 多 知识 ， 本 书 各 章 主要 内 容 如 下 : 


第 1 章 对 深度 学 习 与 计算 机 视觉 进行 简要 介绍 ， 也 会 简单 介绍 开发 环境 的 搭建 。 
第 2 章 主要 介绍 OpenCV 的 基本 操作 及 部 分 高 级 操作 , 包括 人 脸 和 人 眼 的 检测 与 识别 。 
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第 3 章 着 重 介绍 目前 常用 的 几 类 深度 学 习 框 架 ， 包 括 PyTorch, Chainer. TensorFlow- 
Keras 和 MXNet-Gluon， 另 外 本 书 中 偶尔 还 会 用 到 ChainerCV 和 GluonCV。 


第 4 章 对 图 像 分 类 进行 了 介绍 ， 包 括 经 典 的 网 络 类 型 (VGG、ResNet、Inception、 
Xception、DenseNet) ， 并 展示 了 部 分 实践 操作 。 


第 5 章 对 目标 检测 与 识别 进行 了 介绍 ， 包 括 三 种 主流 的 网 络 结构 : YOLO, SSD, 
Faster R-CNN， 并 展示 了 实践 操作 。 


第 6 章 介 绍 图 像 分 割 技 术 ， 主 要 从 前 背景 分 割 (Grab Cut) 、 语 义 分 割 (DeepLab 
与 PSPNet) 和 实例 分 割 (FCIS、Mask R-CNN、MaskLab、PANet) 三 个 粒度 盖 述 。 


第 7 章 介绍 图 像 搜 索 技 术 ， 主 要 指 以 图 搜 图 方面 (CBIR)， 以 及 对 应 的 实践 展示 。 


第 8 章 主要 介绍 图 像 生成 技术 ， 包 括 三 个 大 方向 : Auto-Encoder、GAN 和 Neural 
Style Transfer. 


计算 机 视觉 是 一 个 非常 大 的 方向 , 涉及 的 内 容 非常 多 ， 本 书 只 涉及 了 其 中 部 分 领域 ， 
未 涉及 OCR、 目 标 追 踪 、 三 维 重建 和 光 场 等 方面 的 内 容 。 


本 书面 向 的 主要 是 已 经 拥有 机 器 学 习 和 深度 学 习 基础 ， 但 在 计算 机 视觉 领域 实践 较 
少 ， 对 各 个 方向 了 解 较 少 的 读者 ， 其 他 感 兴趣 的 读者 也 可 作为 科普 读物 。 希 望 本 书 能 为 
计算 机 视觉 感 兴趣 的 读者 打开 一 扇 窗户 ， 引 领 大 家 迈 出 从 理论 到 实践 的 关键 一 步 。 另 外 
由 于 笔者 学 识 、 经 验 和 能 力 水 平 所 限 ， 书 中 难免 有 错误 或 误解 的 地 方 ， 欢 迎 广大 读者 批 
评 指 正 。 

阅读 本 书 需要 的 知识 储备 包括 以 下 几 种 : 

。 线性 代数 

。 概率 论 

e 统计 学 

e “高 等 数学 ， 主 要 指 函 数 方面 

e 机 器 学 习 

e GREG 

e Python 编程 技术 (特别 需要 熟悉 Numpy #) 

e Linux 基础 知识 (可 选项 ) 


如 果 在 学 习 过 程 中 遇 到 任何 问题 或 不 太 理解 的 概念 ， 那 么 最 好 的 方式 是 通过 网 络 寻 
找 答 案 ， 请 相信 我 们 所 遇 到 的 问题 ， 有 很 大 一 部 分 是 大 家 都 会 遇 到 的 问题 ， 网 上 说 不 定 
已 经 有 了 详细 地 讨论 ， 这 时 只 需要 去 发 现 即 可 ; 如 果 没 有 找到 对 应 的 解决 方法 ， 那 么 在 
对 应 的 社区 提问 也 是 很 好 的 一 种 方式 。 

希望 读者 在 阅读 本 书 时 ， 谨 记 计 算 机 是 负责 资源 调度 的 ， 永 远 会 有 时 间 资 源 和 空间 
资源 的 平衡 问题 。GPU 的 使 用 就 是 并 行 利用 空间 换取 时 间 ， 而 IO 密集 型 与 计算 密集 型 
则 是 另外 两 个 常常 遇 到 的 问题 。 在 做 深度 学 习 方面 的 实践 时 ， 这 些 问题 都 应 该 考虑 到 位 ， 
特别 是 面临 海量 数据 的 时 候 ， 比 如 上 亿 级 别 的 图 像 搜索 业务 。 这 些 知识 在 计算 机 操作 系 
统 的 书籍 当中 有 非常 详细 的 论述 ， 如 果 读 者 希望 在 计算 机 领域 有 长 足 的 发 展 ， 那 么 这 是 
一 本 最 基本 最 重要 的 书籍 ， 建 议 好 好 学 习 。 


对 于 本 书 的 完成 ， 要 特别 感谢 王 金 柱 编辑 给 予 的 帮助 和 指导 ， 感 谢 体贴 的 妻子 体谅 
笔者 分 出 部 分 时 间 来 撰写 此 书 。 


读者 联系 邮箱 : booksaga@126.com。 
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深度 学 习 与 计算 机 视觉 近 几 年 非常 火 ， 而 它们 又 和 人 工 智 能 联系 紧密 ， 但 它们 到 底 
是 什么 ， 能 解决 什么 问题 呢 ? 本 章 便 试 着 通俗 简要 地 回答 这 个 问题 。 

首先 是 对 世界 的 认识 ， 对 于 人 类 来 说 ， 可 以 靠 各 种 感官 来 感受 周围 的 世界 ， 包 括 眼 、 
口 、 鼻 、 耳 、 舌 、 身 ， 这 样 我 们 就 认识 了 这 个 世界 是 由 颜色 、 形 状 、 美 丑 、 味 道 、 温 度 
甚至 感情 的 习 恶 等 构成 的 。 那 么 有 没有 方法 让 计算 机 也 有 这 些 感 受 和 认 知 ， 再 进行 推理 、 
判断 和 决策 呢 ? 笔者 认为 这 就 是 人 工 智能 所 要 解决 的 终极 问题 。 

对 于 计算 机 来 说 ， 一 切 皆 为 数字 。 比 如 性 别 为 男性 可 以 用 1 表示 ， 女 性 则 用 0 表示 ， 
这 些 都 是 公认 的 ， 即 一 种 个 体 的 属性 可 以 使 用 数字 来 表示 。 既 然 如 此 ， 那 么 用 向 量 来 表 
示 也 不 会 有 问题 ， 如 [1,0,0] 代表 “ 男 ”，[0.0,1] 代表 “ 女 ”。 一般 地 ， 一 个 个 体会 包含 
很 多 的 属性 ， 那 么 把 这 些 属性 全 部 组 合 起 来 是 不 是 就 可 以 代表 这 个 个 体 呢 ? 当然 可 以 ， 
这 对 计算 机 来 说 就 是 有 智慧 的 第 一 步 一 一 能 认识 并 识别 出 不 同 的 个 体 。 
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用 眼睛 观察 世界 对 人 类 来 说 轻而易举 ， 但 对 只 认识 数字 的 计算 机 来 说 就 是 一 项 非常 
难 的 任务 。 那 么 计算 机 视觉 主要 想 解决 什么 问题 呢 ? 简单 说 就 是 让 计算 机 能 像 人 一 样 看 
事物 ， 并 能 理解 看 到 的 事物 ， 粒 度 从 非常 小 的 苍蝇 到 非常 大 的 宇宙 ， 从 静态 的 物体 到 动 
态 的 行为 过 程 ， 等 等 。 此 时 便 会 涉及 到 一 个 根本 性 的 问题 : 怎么 样 在 计算 机 中 表示 这 人 么 
多 不 同 的 物体 呢 ? 

以 前 人 们 经 常 使 用 的 就 是 规则 ， 即 人 类 自己 定义 如 何 表示 某 个 〈 或 某 类 ) 物体 ， 如 
从 颜色 、 形 状 、 纹 理 等 等 方面 描述 ， 但 要 知道 ， 这 个 世界 是 非常 大 的 ， 物 体 种 类 可 以 说 
是 不 计 其 数 ， 万 一 规则 冲突 了 怎么 办 ?所 以 说 基于 规则 的 方法 局 限 性 非常 大 。 于 是 就 产 
生 了 这 样 的 想法 : 计算 机 的 计算 能 力 这 么 厉害 ， 有 没有 可 能 让 它 自己 学 习 这 些 规则 呢 ， 
比如 给 计算 机 看 一 些 正确 的 例子 ? 这 样机 器 学 习 就 产生 了 ， 深 度 学 习 是 机 器 学 习 的 一 个 
子 领 域 ， 而 机 器 学 习 属 于 人 工 智能 的 研究 范围 。 

机 器 学 习 主要 是 让 计算 机 从 历史 经 验 〈 即 数据 ) 中 学 习 知 识 ， 可 将 其 理解 为 发 现 历 
史 规 律 ， 总 结 经 验 教 训 ， 所 以 也 可 称 为 模式 识别 。 机 器 学 习 常常 可 分 为 三 种 类 型 : 监督 
学 习 、 非 监督 学 习 和 半 监 督学 习 。 如 果 将 机 器 学 习 简 单 理解 为 学 生 读 书 学习 的 过 程 ， 那 
么 监督 学 习 可 理解 为 学 生 跟 着 老师 学 习 ， 老 师 学 识 丰富 ， 而 非 监 督学 习 则 是 学 生 完全 自 
学 ， 自 力 更 生 ; 半 监 督学 习 则 是 两 者 综合 ， 老 师 学 识 有 限 或 学 识 丰富 但 指导 时 间 有 限 ， 
学 生 自己 也 需要 自学 。 

最 近 几 年 机 器 学 习 领域 发 展 起 来 的 原因 主要 有 以 下 几 点 。 


(1) 互联 网 快速 发 展 ， 积 累 了 大 量 的 原始 数据 ， 包 括 图 像 、 文 本 、 影 音 等 。 
QD 计算 机 硬件 飞速 发 展 ， 计 算 能 力 大 大 提高 。 
GO 学 术 研究 的 突破 ， 如 以 Hinton 为 代表 的 团队 。 


深度 学 习 在 很 大 程度 上 可 理解 为 表示 学 习 ， 即 如 何在 计算 机 中 用 数字 表示 一 个 或 一 
类 物体 。 这 种 数字 组 成 的 东西 也 常常 被 称 为 特征 ， 顾 名 思 义 : 独特 的 表征 ， 即 在 计算 机 
中 只 有 某 种 物体 才 会 用 那样 一 组 数字 来 表示 ， 因 此 深度 学 习 也 称 作 特 征 学 习 。 如 图 1-1 
所 示 的 鸟 在 计算 机 中 可 用 独特 的 数字 或 数字 组 合 来 表示 ， 比 如 : 单个 数字 99、 向 量 [123， 
999, 888] 或 者 二 维 向 量 ， 甚 至 是 更 高 维 的 向 量 。 

那么 这 些 数字 表示 什么 意义 呢 ? 人 类 制定 的 规则 ， 这 些 数字 表示 的 意义 一 般 比 较 明 
显 ， 比 如 表示 颜色 、 形 状 、 有 没有 羽毛 等 。 而 在 深度 学 习 中 ， 物 体 的 特征 向 量 常常 很 难 
与 人 类 的 直观 意义 匹配 ， 即 人 们 不 懂 这 些 数 字 代 表 什 么 意义 ， 但 计算 机 懂 一 一 计算 机 能 
在 大 量 的 特征 向 量 中 区 分 出 个 体 。 
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图 1-1 视觉 图 片 与 数字 特征 表示 


本 章 主 要 介绍 机 器 学 习 、 深 度 学 习 与 计算 机 视觉 相关 概念 之 间 的 关系 ， 并 介绍 开发 
环境 的 安装 。 














11 图 像 基础 


图 像 是 人 通过 眼睛 对 外 界 的 一 种 视觉 感受 ， 它 可 以 存在 于 人 们 的 脑海 里 ， 也 可 以 通 
过 某 种 介质 〈 如 照片 或 数码 照片 ) 保存 下 来 ， 本 书 主要 讨论 的 是 计算 机 对 图 像 的 处 理 ， 
所 以 明白 计算 机 怎么 看 待 图 像 是 非常 重要 的 。 如 前 所 述 ， 计 算 机 中 所 有 文件 都 用 数字 表 
示 ， 那 么 图 像 也 不 例外 。 

在 计算 机 中 ， 图 像 的 最 基本 组 成 单元 为 像素 ， 图 片 是 包含 很 多 个 像素 的 集合 。 像 素 
一 般 就 是 图 片 中 某 个 位 置 的 颜色 ， 很 多 个 像素 点 排列 起 来 ， 就 可 以 组 成 一 个 二 维 平面 点 
阵 ， 这 就 是 图 像 。 比 如 电脑 桌面 背景 ， 如 果 是 1920px X1080px 的 大 小 ， 那 就 意味 着 有 
1920X1080 (2073600) 个 像素 : 1920 列 ，1080 行 。 通 常 图 像 表达 会 用 色彩 空间 的 概念 ， 
常见 的 有 RGB、LAB、HSL 和 灰 度 等 ， 本 书 主要 关注 RGB 和 灰 度 这 两 种 ， 其 他 色彩 空 
间 可 查阅 相关 资料 o RGB 图 像 又 称 为 三 通道 彩色 图 ， 灰 度 图 相对 应 就 可 以 叫 作 单 通道 
图 。 通 道 数 可 简单 理解 为 表示 单个 像素 所 需要 的 数字 的 个 数 。 

图 像 分 两 类 : 模拟 图 像 和 数字 图 像 。 两 者 之 间 最 大 的 区 别 是 像素 的 值 域 ， 模 拟 图 像 
像素 的 值 域 是 连续 的 ， 是 人 类 所 认识 感受 到 的 ， 而 数字 图 像 的 值 域 则 是 离散 的 、 有 限 的 
是 计算 机 等 电子 设备 所 认 知 的 事物 。 本 书 所 讨论 的 就 是 计算 机 所 认 知 的 图 像 ， 即 数字 图 
像 ， 后 面 不 再 说 明 ， 这 也 是 计算 机 视觉 的 主要 任务 。 















































1 http;//poynton.ca/ColorFAQ.html (注意 区 分 大 小 写 ) 
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在 计算 机 中 ， 灰 度 图 中 的 像素 通常 用 0-255 之 间 的 一 个 整数 数字 表示 ，0 表示 黑色 ， 
255 表示 白色 ， 数 字 从 0 变 到 255 表示 颜色 由 黑 变 白 的 一 个 过 程 。 颜 色 越 黑 则 越 接近 0, 
越 白 则 越 接近 255。 


= 


RGB 彩色 空间 则 使 用 三 个 整数 数字 来 代表 一 个 像素 ， 如 (0,100,200)， 分 别 代表 红色 
部 分 的 颜色 值 为 0， 绿色 部 分 为 100， 蓝 色 部 分 为 200。RGB 分 别 代 表 英 文 单 词 Red, 
Green 和 Blue， 其 对 应 的 取 值 范围 都 是 0 一 255， 数 值 越 大 表示 颜色 越 浅 ， 越 小 则 越 饱和 。 
所 以 RGB 像素 不 同 的 组 合 总 数 为 : 256X256X256=16777216， 其 中 (0,0,0) 表示 黑色 ， 
(255,255,255) 表示 白色 。 

基于 以 上 认识 ， 像 素 点 阵 就 可 以 使 用 矩阵 来 表示 ， 差 异 就 是 不 同 空间 表示 像素 的 方 
法 不 同 。 灰 度 图 可 简单 理解 为 一 个 二 维 矩 阵 ， 里 面 填 满 了 0 ~ 255 间 的 整数 ， 而 彩色 图 
则 是 三 维 矩阵 ， 维 度 分 别 代表 高 、 宽 和 通道 数 ， 如 图 1-2 所 示 可 以 更 形象 直观 地 理解 ， 
一 个 4X4 的 灰 度 图 像 矩阵 和 一 个 4X4 的 RGB 彩色 图 像 〈 除 非特 殊 说 明 ， 后 期 本 书 中 
的 彩色 图 像 一 般 指 RGB 空间 格式 ) 矩阵 。 

















图 1-2 灰 度 图 与 RGB 彩 图 











1.2 深度 学 习 与 神经 网 络 基础 





深度 学 习 这 个 词语 很 时 墅 ， 这 里 通俗 地 解释 一 下 它 的 概念 。 
深度 学 习 就 是 使 用 神经 网 络 来 进行 学 习 ， 将 一 种 表示 (Representation) 转换 为 另外 
一 种 表示 ， 那 么 神经 网 络 是 什么 呢 ? 简单 来 说 神经 网 络 就 是 一 个 函数 ， 但 它 可 以 非常 简 
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单 ， 如 y=x+3; 也 可 以 非常 复杂 ， 复杂 到 难以 用 数学 公式 进行 解析 表达 ， 一 般 来 讲 ， 神 
经 网 络 会 包含 两 个 主要 部 分 : 线性 变换 函数 和 非 线 性 变换 函数 。 


1.2.1 函数 的 简单 表达 


简单 说 函数 就 是 将 输入 通过 一 些 操作 或 变换 变 为 输出 ， 简 记 为 y =x)， 就 可 以 说 x 
经 过 函数 了 的 作用 变 成 了 y。 很 多 人 就 学 过 以 下 函数 ， 这 些 函 数 通 常 做 的 就 是 将 一 个 数 
F ORE, scalar) 映射 〈 变 成 ) 为 男 外 一 个 数字 (标量) ， 当 然 可 能 存在 一 一 对 应 ， 一 
多 对 应 和 多 一 对 应 这 些 情况 ， 此 处 只 讨论 一 一 对 应 ， 即 一 个 x 只 能 映射 为 一 个 y， 如 下 
所 示 : 
y=ax+b 
ysax +bx+c 


y=ae” +ex+d 


1.2.2 函数 的 矩阵 表达 


如 果 输 入 的 是 多 个 数字 组 成 的 向 量 Cvector) 呢 ， 比 如 一 个 点 在 二 维 平面 空间 的 坐 
标 (xy)， 然 后 输出 是 一 个 标量 ， 比 如 高 度 z。 假 设 可 以 用 一 个 简单 的 线性 函数 来 表示 ， 
Bl: z = aXx +5Xy + c， 这 样 便 表 示 了 整个 操作 过 程 。 但 输入 通常 会 被 当 作 一 个 变量 ， 
此 时 应 该 怎么 表示 这 个 式 子 呢 ? 此 时 便 引 出 了 以 下 矩阵 和 向 量 的 操作 : 将 [a, b] 视 为 矩 
阵 4， 将 pe 习 视 为 向 量 忆 然后 进行 矩阵 与 向 量 的 乘法 操作 ， 其 实 就 是 行 的 元 素 与 列 的 
元 素 对 应 相 乘 然后 相 加 。 如 果 输 入 的 维度 更 高 ， 那 么 只 需要 增加 输入 向 量 中 的 元 素 个 
数 即 可 ， 同 时 对 应 增加 线性 变换 矩阵 4 中 每 行 的 元 素 个 数 。 如 果 输 出 多 个 值 怎么 办 呢 ? 
其 实 只 需要 将 线性 变换 矩阵 4 的 行 数 增加 即 可 ， 有 多 少 个 值 4 中 就 有 多 少 行 ， 此 时 输出 
也 可 以 使 用 矩阵 Z 表 示 ， 如 下 所 示 : 


z=[a el^ eem aree 


H i d k ke | 
Z= = +| |+c= 
z2 e d| |y ex+dy +c 
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1.2.3 神经 网 络 的 线性 变换 


函数 的 矩阵 操作 也 可 称 为 线性 变换 ， 它 是 神经 网 络 中 最 基础 的 操作 之 一 。 神 经 网 络 
中 的 线性 变换 只 是 将 变换 矩阵 4 和 输入 于 的 维度 变 得 更 大 了 而 已 。 对 于 图 像 来 说 ， 对 已 
经 是 成 百 上 千 级 别 的 矩阵 变量 了 ， 但 原理 还 是 一 样 : 对 应 相 乘 然 后 做 连 加 操作 。 

比如 对 于 一 个 2X2 灰 度 图 片 ， 可 以 想象 将 所 有 的 元 素 拉 伸 为 一 维 数组 〈 当 然 这 样 
做 会 失去 图 像 的 空间 特性 ) ， 然 后 进行 线性 变换 ， 可 用 以 下 式 子 表示 ， 此 处 省 略 常数 项 
ke wl2 wl3 ME ib ji yl 
w21 w22 w23 w24 

wl 1xl+wl2x2 + w13yl4 wl4y2 
E bes +w22x2 +w23y1 + gesi 


这 样 操作 之 后 就 得 到 一 个 输出 ， 输 出 包括 两 个 数字 ， 即 可 理解 为 2 维 输出 。 现 实情 
况 中 输出 会 有 更 多 的 维度 。 另 外 值得 一 提 的 是 ， 此 处 每 一 行 的 参数 个 数 与 图 片 的 高 和 宽 
的 乘积 一 样 ， 其 本 质 就 是 卷 积 操作 。 


1.2.4 神经 网 络 的 非 线 性 变换 


神经 网 络 使 用 线性 变换 可 以 做 非常 多 的 线性 操作 ， 但 这 个 世界 还 有 非常 多 的 非 线性 
映射 ， 比 如 二 次 函数 必 ， 此 时 就 需要 通过 非 线 性 变换 来 解决 此 类 问题 。 

过 去 非常 多 的 学 者 为 之 努力 过 ， 并 提出 了 使 用 激活 函数 来 进行 非 线性 变换 。 目 前 常 
用 的 激活 函数 及 对 应 的 导数 如 图 1-3 所 示 ， 可 以 看 到 其 是 否 有 梯度 消失 或 爆炸 、 饱 和 等 
性 质 ， 如 想 直观 了 解 更 多 的 激活 函数 可 参见 相关 网 站 o 


1.2.5 深层 神经 网 络 


前 文 讲解 了 神经 网 络 的 两 个 最 重要 的 基本 组 成 单元 ， 即 线性 变换 和 非 线性 变换 ， 使 
用 它们 的 组 合 既 可 以 模拟 线性 变换 又 可 以 模拟 非 线 性 变换 。 但 世界 上 有 无 数 函数 〈 线 性 
+ 非 线性 ) ， 那 么 怎么 去 模拟 更 多 的 函数 呢 ? 答案 就 是 Deep。 

所 谓 Deep， 其 实质 就 是 不 断 地 又 加 这 种 线性 和 非 线 性 操作 ， 每 次 操作 如 果 被 称 为 
一 个 网 络 层 ,那么 合 加 很 多 次 这 些 操作 ,就 形成 了 所 谓 的 深层 网 络 结构 ， 如 图 1-4 所 示 。 


2 https://dashee87.github.io/data%20science/deep%20learning/visualising-activation-functions-in-neural-networks/ 
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1-3 常见 激活 函数 
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1-4 神经 网 络 示意 图 


深度 学 习 实践 : 计算 机 视觉 


假如 将 线性 操作 记 为 WX+5， 激 活 函 数 〈 非 线性 ) 操作 记 为 5c0 ， 那 么 线性 操作 后 
跟 激活 函数 的 结果 就 是 a= 6(WX +b)， 如 果 后 面 再 跟 一 个 线性 操作 和 激活 函数 ， 则 输出 
为 4a” = OW, a" +b,。s)。 这 样 通过 不 断 地 循环 操作 ， 就 达到 模拟 复杂 函数 的 目的 。 
注意 每 一 层 的 参数 W Alb 的 具体 内 容 一 般 是 不 一 样 的 。 

神经 网 络 通过 修改 神经 元 的 个 数 〈 影 响 每 层 WA b 的 参数 数量 ) 和 网 络 的 层 数 可 
以 模拟 非常 多 复杂 的 函数 ， 甚 至 可 以 说 是 可 以 模拟 世界 上 任意 的 函数 〈 前 提 是 神经 元 和 
网 络 层 数 也 是 无 限 的 ) 。 


1.2.6 神经 网 络 的 学 习 过 程 


理解 了 神经 网 络 的 组 成 后 ， 便 面临 着 如 何 确定 这 些 参数 〈 每 层 参 数 和 矩阵 W A b 的 
有 具体 数值 ) 的 问题 。 

深度 学 习 在 很 大 程度 上 是 学 习 历史 经 验 ， 那 么 要 确定 神经 网 络 的 参数 ， 就 需要 大 量 
的 历史 数据 来 进行 训练 。 

这 个 过 程 可 形象 地 理解 为 学 生 进行 题 海 战术 : 给 学 生 很 多 以 前 考试 出 现 过 的 考题 ， 
让 学 生 做 ， 做 完 后 与 标准 答案 对 照 ， 然 后 学 生根 据 对 错 情 况 进行 查 漏 补缺 再 学 习 。 通 过 
不 断 地 重复 这 个 过 程 ， 学 生 就 能 学 习 很 多 知识 ， 能 做 到 举一反三 ， 真 正 考试 的 时 候 也 能 
取得 好 成 绩 。 这 些 知识 就 对 应 着 神经 网 络 里 的 各 种 参数 ， 神 经 网 络 学 到 这 些 参 数 后 ， 就 
可 以 对 类 似 的 输入 进行 变换 ， 从 而 得 到 “正确 的 答案 ”。 

这 些 历 史 数 据 就 组 成 了 所 谓 的 数据 集 (dataset) , 一 个 数据 集 包 含 很 多 条 数据 (sample 
BX data point) ， 每 条 数据 一 般 包 含 问题 及 答案 。 对 于 图 像 分 类 来 说 ;问题 就 是 原始 图 像 ， 
答案 就 是 对 应 的 类 别 。 有 了 这 些 数据 后 ， 神 经 网 络 每 次 做 题 给 出 答案 就 和 标准 答案 进行 
对 比 ， 然 后 可 以 得 到 一 个 错误 指标 ， 其 计算 可 使 用 loss loss _ fun(output, true _value) ZER. 
得 到 loss 后 ， 便 对 其 求 微分 ， 即 loss 相对 于 神经 网 络 中 各 个 参数 的 变化 情况 ， 然 后 使 用 
参数 更 新 算法 对 参数 进行 更 新 (如 随机 梯度 下 降 法 ) ， 这 就 是 知识 更 新 的 过 程 。 





通过 不 断 地 训练 ， 神 经 网 络 就 会 不 断 地 更 新 参数 ， 学 习 新 知识 ， 从 而 达到 从 历史 数 
据 中 学 到 经 验 教训 的 目的 。 
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学 生 学 习 得 好 不 好 ， 还 得 经 受 模拟 考试 和 真正 考试 的 检验 ， 这 同样 适用 于 神经 网 络 ， 
所 以 需要 用 神经 网 络 在 另外 一 部 分 它 没 见 过 的 数据 上 进行 测试 ， 看 神经 网 络 是 否 能 够 举 
一 反 三 。 在 这 个 过 程 中 会 使 用 训练 集 上 的 错误 率 和 测试 集 上 的 错误 率 作对 比 ， 来 观察 学 
习 的 效果 。 这 就 会 出 现 以 下 三 种 情况 。 

CD 理想 情况 .两 个 数据 集 上 的 loss 变化 趋势 一 样 ， 或 差距 越 来 越 少 ， 同 时 降低 。 

(2) 欠 拟 合 :在 训练 集 上 Loss 就 非常 大 ， 随 着 时 间 的 推移 ， 甚 至 越 来 越 大 。 

(3) 过 拟 合 ， 训 练 集 上 loss 越 来 越 小 ， 而 测试 集 上 loss 越 来 越 大 ， 即 两 者 间 出 现 
了 很 大 的 鸿沟 。 

如 图 1-5 所 示 ， 一 般 训练 过 程 都 会 
经 历 欠 拟 合 、 理 想 和 过 拟 合 中 的 一 种 或 i 
几 种 情况 。 IN 

CD 欠 拟 合 ， 学 生 最 开始 学 得 差 ， SR gege" 
题 海战 术 中 的 题 都 不 会 做 ， 更 别提 模拟 KÉN i 
考试 了 。 x 

QD 理想 情况 ， 学 生 在 题 海战 术 
表现 优秀 ， 同 样 模拟 考试 也 优秀 。 图 1-5 损失 函数 值 变化 

QD 过 拟 合 ， 学 生 在 题 海战 术 中 表现 非常 优秀 ， 但 考试 表现 很 差 ， 出 现 所 谓 的 背 
题 现象 ， 遇 到 新 题 不 能 举一反三 ， 没 有 学 到 真 功夫 。 


神经 网 络 举一反三 的 这 种 能 力 通常 被 叫 作 模型 〈 即 这 个 训练 好 的 神经 网 络 ) 的 泛 化 
能 力 。 所 以 训练 神经 网 络 的 目标 就 是 训练 集 上 要 优秀 ， 测 试 集 上 的 泛 化 能 力也 要 好 。 

















1.3 郑 积 神经 网 络 CNN 


常规 神经 网 络 的 线性 变换 操作 WX， 可 以 按 如 图 1-6 所 示 进 行 视 觉 理 解 ， 左 边 表示 
HREM, A AE 丈 ， 假 如 其 为 3X4 和 矩阵 ， 而 输入 则 为 4X1 的 向 量 ， 那 么 按照 
和 抢 阵 乘法 ， 丈 每 行 会 和 式 每 列 的 元 素 分 别 相 乘 ， 然 后 作 连 加 求 和 操作 ， 从 而 输出 一 个 
3X1 的 向 量 。 

那么 CNN 是 什么 呢 ? 其 英文 全 称 为 Convolutional Neural Network， 中 文 译 为 卷 积 神 
经 网 络 。 下 面 形象 地 讲解 其 结构 。 
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roe 
ree 
roe 

















图 1-6 矩阵 乘 向 量 


首先 ， 如 果 将 图 1-6 PRAX OK) 变换 一 下 形式 ， 比 如 2X2 We, Zem 
于 的 每 行 也 变 成 2X2 的 结构 ， 为 了 清晰 ， 这 里 将  ( 黄 、 紫 、 绿 〉 的 三 行 分 开 画 ， 便 


得 到 图 1-7。 


óó 0066 dd066 on 
TZ Zeg OF RR 99 


E] 1-7. CNN 解析 


这 样 一 个 3X4 的 二 维 参数 矩阵 就 可 视 为 一 个 3X2X2 (或 2X2X3) 
而 输入 革 则 变 为 一 个 2x2 的 和 矩阵。 计算 的 时 候 ， 假 设 W LA 3X2X2, 


的 三 维 矩 阵 ， 
则 按 箭头 所 示 


进行 对 应 元 素 相 乘 ， 然 后 将 结果 相 加 ， 刺 每 一 层 都 会 得 到 一 个 标量 ， 这 样 综合 起 来 就 得 


到 一 个 3X1 的 矩阵 。 然 而 这 样 变 换 到 底 有 什么 用 呢 ? 


细心 的 读者 有 没有 发 现 ; 此 时 于 的 结构 和 前 面 讲 的 灰 度 图 的 矩阵 表示 结构 一 样 ， 就 
是 这 个 道理 ， 只 不 过 真正 的 灰 度 图 表示 为 工时 ， 黑 色 圆 点 更 多 而 已 ， 即 像素 更 多 。 这 种 
保持 空间 信息 的 线性 乘法 操作 就 是 CNN 操作 ， 而 参数 矩阵 素 此 时 便 叫 作 卷 积 核 。 

CNN 会 以 固定 大 小 的 卷 积 核 去 扫描 整 张 图 片 ， 每 次 在 扫描 的 小 区 域内 做 上 述 线 性 


变换 操作 ， 然 后 输出 一 个 像素 点 ， 对 整 张 图 来 说 会 扫描 出 很 多 这 样 的 小 
或 3X3) ， 这 样 便 会 输出 一 张 很 多 像素 点 组 成 的 特征 图 ， 即 feature map. 
卷 积 核 最 基础 的 参数 如 下 : 
e RK 
e 输出 通道 数 





区 域 (如 2X2 
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。 输入 通道 数 
e 边缘 填充 数 
e 扫描 步 长 


核 大 小 就 是 图 1-7 中 参数 矩阵 中 每 行 的 长 X 宽 ， 即 kemel size， 此 例 中 为 2X2， 现 
实 中 常用 的 还 有 3X3、1X3、3X1、1X1 等 。 

输出 通道 数 则 是 图 1-7 中 参数 矩阵 中 的 行 数 , 此 处 分 别 用 三 种 颜色 加 以 区 分 , 即 为 3， 
但 现实 中 输出 通道 数 可 能 会 更 多 ， 如 64、128、512 等 。 

输入 通道 数 一 般 可 由 上 层 输入 变量 确定 ， 此 处 为 输入 变量 X， 为 一 个 二 维 变量 的 灰 
度 图 ， 所 以 其 输入 通道 数 为 1， 但 现实 的 神经 网 络 中 经 常 是 上 一 层 的 输出 会 作 下 一 层 的 
输入 ， 所 以 输入 和 输出 是 针对 某 一 层 来 说 的 ， 故 输入 通道 数 也 有 多 种 多 样 的 变化 ,如 1、 
3、32、64 等 。 

边缘 填充 就 是 所 谓 的 Padding， 这 是 为 了 捕获 边缘 信息 而 产生 的 手段 ， 一 般 就 是 在 
边缘 的 一 行 和 列 添 0 进行 填充 。 

而 步 长 则 是 卷 积 核 每 次 扫描 所 移动 的 像素 点 数 ， 一 般 有 水 平和 垂直 两 个 方向 ， 步 长 
常用 的 取 值 有 1X1 和 2X2。 

图 1-8 是 一 个 大 小 为 3X3、 步 长 为 1X1 的 卷 积 核 ， 在 4X4 的 灰 度 图 上 的 操作 ， 此 
时 作 了 边缘 为 1 的 填充 ， 这 样 经 过 卷 积 后 输出 还 是 一 个 4X4 的 feature map。 如 果 想 获 
得 多 输出 通道 ， 图 1-8 中 左边 为 3X3X1 的 卷 积 核 参数 矩阵 ， 第 3 维 (1) 便 是 输出 通道 
数 ， 改 变 这 个 数值 即 可 。 如 果 步 长 为 2X2， 那么 卷 积 核 扫描 就 会 隔 一 个 像素 点 扫描 一 次 ， 
最 后 则 会 输出 一 个 2X2 ff feature map, 形成 所 谓 的 下 采样 操作 , 即 宽 高 降低 (尺寸 变 小 ) 。 











图 1-8 带 边缘 填充 的 卷 积 操作 


对 于 卷 积 操作 输入 输出 尺寸 的 变化 ， 其 实 是 有 一 个 公式 ， 希 望 通过 上 面 的 阐述 ， 读 
者 会 对 以 下 公式 有 更 加 直观 形象 地 理解 。 需 要 注意 ， 很 多 教程 没有 指明 Padding 边缘 
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填充 ) 和 Stride GK) 在 不 同方 向 是 可 以 不 同 的 ， 这 可 能 会 给 初学 者 带 来 迷惑 ， 所 以 
在 此 将 不 同方 向 使 用 下 标 标 明 。 当 然 在 真正 实践 中 ， 这 些 方向 一 般 会 设置 为 相同 大 小 ， 
但 了 解 其 原理 对 理解 其 真实 操作 是 非常 有 必要 的 。 
Height,,, = (Height, — Kernel sigu + 2XPadding eign) / Stride poign +1 
Width „„ = (Width, — Kernel pan + 2X Padding iam) / Stride siam +1 
以 上 是 对 灰 度 图 作 卷 积 操作 ， 那 么 遇 到 彩色 图 片 怎么 办 呢 ? 
其 实 原理 都 差不多 ， 只 是 输入 变 成 了 一 个 三 维和 矩阵 。 而 且 在 处 理 灰 度 图 的 过 程 中 ， 
如 果 某 一 层 的 输出 通道 数 为 3， 那 这 一 层 的 输出 本 质 上 和 彩色 图 片 作为 输入 没有 区 别 。 
从 图 1-9 中 可 以 管中窥豹 。 


LA 
EN 个 END. A 
P 


Output Y:Feature Map 





kernel W: 
size 3*3 size 1920*1080*1 size 1920*1080*3(output channels) 
Padding 1*1 

Stride 1*1 


Input X; Gray Image 


output channels 3 
1-9 灰 度 图 卷 积 输出 彩 图 


对 于 一 张 1920X 1080 的 灰 度 图 ， 使 用 一 个 核 大 小 为 3X3 CW H Wann) 、 边 缘 
填充 为 1X1 CPadding,,,, X Padding,,? 、 步 长 为 1X1 CStride, X Stridera) 和 输出 
通道 数 为 3 (output_channels) 的 卷 积 去 扫描 整 张 图 片 ， 其 输出 就 是 一 个 高 和 宽 不 变 ， 但 
通道 数 变 为 3 的 3 维 矩 阵 , 此 矩阵 其 实 可 以 看 作 一 张 彩色 图 片 。 如 果 后 面 再 接 一 个 卷 积 层 ， 
那么 意味 着 后 面 的 卷 积 层 处 理 的 就 是 彩色 图 片 了 。 

对 于 彩色 图 片 ， 可 以 从 图 1-10 中 看 到 ， 其 操作 与 对 灰 度 图 片 的 操作 类 似 ， 需 要 注 
意 的 是 ， 此 时 黄色 区 域 的 层 数 会 与 输入 图 片 的 通道 数 一 致 ， 此 时 为 3， 且 对 应 层 的 参数 
会 与 输入 对 应 的 通道 进行 卷 积 ， 然 后 再 连 加 求 和 ， 形 成 最 后 的 黄色 输出 通道 ， 其 他 颜色 
输出 通道 类 似 。 如 果 输 出 通道 数 为 n， 那 么 W 可 以 形象 地 理解 为 有 n 组 颜色 的 参数 矩阵 ， 
即 nX3X3X3。 这 点 与 灰 度 图 不 同 ， 因 为 灰 度 图 只 有 一 个 通道 。 

这 是 常规 的 CNN 操作 ， 但 后 来 有 人 对 彩色 通道 的 这 种 操作 提出 了 疑问 ， 众 生 了 
Xception 这 种 网 络 模型 ， 有 兴趣 的 读者 可 查阅 相关 资料 ， 本 书后 面 也 会 作 简要 介绍 。 


3 https://arxiv.org/abs/1610.02357 





CNN 中 的 激活 函数 与 常 
规 网 络 并 无 太 多 出 入 ， 都 是 
使 用 RELU、 Sigmoid 等 函数 。 ay > 
- #4 
n (D EE > 
ky —— 0 
ef? Input X: Color Image Output Y:Feature Map. 
3 size 1920*1080*3 size 1920*1080*n 
kernel W: 
size 3*3 
Padding 1*1 





55. CNN 中 还 有 一 类 操作 ， 叫 作 Pooling， 其 本 质 也 是 卷 积 操作 。 不 同 于 常 
规 的 线性 变换 ， 它 只 是 在 相应 的 区 域内 提取 最 大 值 、 最 小 值 或 
MaxPooling. MinPooling 和 AvgPooling。 取 最 小 值 这 种 操作 在 真实 1 
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Stride 1*1 
cutput, channel n 


图 1-10 彩 图 卷 积 操作 





得 较 多 的 是 最 大 值 和 平均 值 。 


Pooling 常常 会 用 2X2 的 
步 长 ， 以 达到 下 采样 的 目的 ， 
同时 取得 局 部 抗 干 扰 的 效果 。 




















如 图 








是 所 谓 的 局 部 抗 了 


1-11 Pras, 当 0.1 变 为 05 














其 输出 还 是 0.8， 





F 扰 ， 同 时 


MaxPooling 
2x2 


[— —» 





尺寸 由 4X4 变 为 了 2X2。 


CNN 主要 结构 单元 清楚 后 ， 便 是 如 何 组 装 这 些 单 元 了 ， 最 常见 的 操作 就 是 往 深 度 





图 1-11 Pooling 操作 


方向 合 加 ， 即 将 这 些 子 结构 串联 起 来 ， 如 图 1-12 所 示 。 


Repeat N times 





Fully 
Connected 


Fully Conv 














Repeat M times 








图 1-12 卷 积 串联 组 合 











均值 ， 分 别 可 记 为 
青 况 下 比较 少见 ， 用 





Joan 
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这 其 实 也 就 是 VGG’ 网 络 的 抽象 结构 ， 另 外 还 有 残 差 网 络 结构 ResNef ， 以 及 考虑 宽 
度 方 向 的 mception 结构 ， 本 书后 面 都 会 作 相关 介绍 。 

CNN 相对 于 常规 的 神经 网 络 的 优点 就 是 : 保持 了 输入 变量 的 空间 特性 ， 同 时 大 大 
减 小 神经 网 络 的 参数 数量 ， 最 终 得 到 的 效果 也 非常 好 。 

它 通过 不 断 添加 网 络 层 的 方式 达到 了 层级 学 习 的 效果 ， 即 每 一 层 都 负责 学 习 相关 的 
特征 ,比如 对 于 CNN 来 说 , 靠近 输入 端的 网 络 层 会 偏向 学 习 点 、 线 、 角 和 面 等 基础 特征 ; 
而 靠近 输出 端的 网 络 层 则 偏向 学 习 图 片 内 容 等 更 加 抽象 的 高 级 语义 特征 ， 此 特征 对 这 个 
输入 来 说 比较 独特 ， 而 基础 特征 对 于 所 有 输入 都 比较 类 似 。 

通过 这 样 的 层 层 学 习 ， 神 经 网 络 便 学 习 到 了 非常 好 的 特征 来 表达 此 输入 ， 后 面 再 加 
入 几 层 全 连接 层 或 全 卷 积 网 络 层 ， 便 可 以 完成 分 类 或 其 他 任务 。 

所 以 神经 网 络 一 般 包含 两 个 部 分 ， 前 面 的 特征 提取 层 和 后 面 的 任务 层 ， 通 常 这 些 层 
会 合 在 一 起 训练 ， 从 而 实现 从 输入 到 输出 的 端 到 端 (End to End) 训练 。 


14 基础 开发 环境 搭建 


本 节 将 简要 说 明 如 何 快速 搭建 Python、OpenCYV 平台 ， 其 他 常用 的 库 还 有 NumPy、 
SciPy、Matplotlib， 对 于 数据 科学 有 更 好 的 工具 Anaconda 或 Miniconda。 它 们 可 以 用 于 
进行 大 规模 数据 处 理 、 预 测 分 析 和 科学 计算 ， 并 致力 于 简化 包 的 管理 和 部 署 。 

对 于 TensorFlow, PyTorch, MXNet, Chainer 等 深度 学 习 框 架 的 安装 请 参考 本 书 第 
3 章 内 容 。 

本 书 的 环境 为 Ubuntu 16.04, GPU 为 Titan Xp， 安 装 可 参考 对 应 官方 网 站 ， 不 
7£ Je BEI. Anaconda 可 以 在 国内 清华 镜像 " 下载， 这 样 速度 较 快 ， 另 外 也 可 以 下 载 
Miniconda’: 


安装 参见 Anaconda 官方 网 站 "， 简 要 步骤 如 下 


(1) “bash Anaconda3-5.2.0-Linux-x86 64.sh 或 bash Miniconda3-latest- 





https://arxiv.org/abs/1409.1556 
https://arxiv.org/abs/1512.03385 
https://arxiv.org/abs/1602.07261 
https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 
https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ 
https://docs.anaconda.com/anaconda/install/linux 


o 0-10 0 x 
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Linux-x86 64.sh” 安 装 程序 会 弹出 “In order to continue the installation process, please 
review the license agreement.” X] ift Enter 查看 细节 ， 输 入 YES 同意 。 
(2) 选择 安装 目录 与 加 入 环境 变量 ， 一 般 选 Default 设置 即 可 。 
(3) 显示 “谢谢 安装 ”对 话 框 ， 然 后 执行 source —/.bashrc 命令 。 
(D 设置 源 以 改善 以 后 装 包 速度 ， 参 见 相关 网 站 "， 这 里 主要 添加 以 下 源 : 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/ 
anaconda/pkgs/free/ 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/ 
anaconda/pkgs/main/ 
conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/ 


anaconda/cloud/pytorch/ 


conda config --set show channel urls yes 


(5) 运行 conda install numpy 测试 ， 如 报错 请 上 网 查找 原因 。 


到 此 已 经 安装 好 了 Python， 现 在 来 安装 OpenCV， 可 以 直接 执行 pip install opencv- 
contrib-python〈 包 含 更 多 功能 ) 命令 ， 安 装 成 功 后 会 显示 Successfully installed opencv- 
contrib-python-3.4.0.14《〈 版 本 可 能 不 同 ) 类 似 字段 。 


1.5 本 章 总 结 


本 章 试 着 通俗 地 介绍 深度 学 习 与 计算 机 视觉 的 相关 基础 概念 ， 并 简要 介绍 了 相关 基 
础 开发 环境 的 搭建 。 

介绍 了 神经 网 络 最 基本 的 组 成 结构 ， 并 引出 了 卷 积 神经 网 络 的 对 应 结构 ， 对 其 内 部 
基础 操作 进行 了 阐述 。 

通过 介绍 计算 机 处 理 视觉 任务 的 逻辑 与 深度 学 习 的 理念 ， 引 出 了 深度 学 习 与 计算 机 
视觉 任务 相 结合 交叉 领域 。 

本 书后 面 对 应 章节 会 针对 不 同 的 深度 学 习 介绍 其 对 应 的 描 建 与 使 用 方法 ， 故 不 在 本 
RR. 





10 https://mirror.tuna.tsinghua.edu.cn/help/anaconda/ 
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OpenCV 的 全 称 为 Open Source Computer Vision 〈 开 源 计 算 机 视觉 ) ， 由 Intel 公司 
的 Gary Bradsky 在 1999 年 开始 开发 ， 第 1 版 发 行 于 2000 年 。 它 是 一 款 免费 的 计算 机 视 
觉 开源 软件 ， 由 C/C++ 语言 实现 ， 提 供 了 Python, Java, C++ 等 接口 ， 可 以 操作 图 像 和 
视频 ， 目 前 主要 有 第 2 版 和 第 3 版 两 个 版 本 ， 第 3 版 发 行 于 2015 年 ， 运 行 更 加 稳定 ， 
性 能 更 好 ， 且 部 分 支持 OpenCL， 本 书 将 使 用 第 3 版 ， 目 前 第 4 版 正 处 于 开发 阶段 。 

OpenCV 含 以 下 几 大 核心 模块 。 

日 ”核心 函数 模块 : 主要 定义 高 维 短 阵 基础 数据 结构 以 及 相应 的 处 理 函 数 。 

ee 图像 处 理 模块 : 主要 包含 线性 和 非 线性 滤波 〈 本 质 就 是 卷 积 操作 ) 、 几 何 变换 、 

磊 色 空间 转换 和 像素 统计 等 功能 。 
e ”视频 模块 : 主要 用 作 视 频 分 析 ， 包 含 运动 预 估 、 背 景 消除 和 目标 追踪 等 功能 。 
。 3D 校准 模块 :包含 多 视角 算法 、 相 机 校准 、 姿 态 估计 等 功能 。 
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2D 特征 模块 : 包含 显著 特征 检测 、 描 述 等 。 
目标 检测 模块 : 进行 预定 义 类 的 目标 检测 。 


本 章 将 介绍 图 像 处 理 中 最 基础 的 常用 操作 〈 主 要 是 读 写 及 几何 变换 操作 ) ， 然 后 简 
要 介绍 其 人 脸 和 眼睛 检测 自 带 算法 的 使 用 。 


21 读 图 、 展 示 和 保存 新 图 





读 图 、 展 示 和 保存 主要 会 用 到 三 个 函数 ， 分 别 为 cv2-imread().. cv2.imshow() 和 cv2. 
i 


下 面 的 代码 分 别 给 出 了 使 用 三 个 函数 进行 读 图 、 展 示 和 保存 新 图 的 示例 。 


al 
2 
3 
4 
5 
6 
7 
8 
9 


10 
11 
m2 


import cv2 

image = cv2.imread('test.jpg') 

print(f "width: {image.shape[1]} pixels") 
print(f "height: {image.shape[0]} pixels" 


print(f "channels: {image.shape[2]}") 


cv2.imshow("Image", image) 


cv2.waitKey (0) 


cv2.imwrite("new image.jpg", image) 


上 述 示例 中 ， 首 先 使 用 cv2.imread0 来 读 取 图 像 ， 可 以 简单 地 传 入 一 个 图 片 的 地 址 
参数 , 并 返回 一 个 代表 图 片 的 NumPy 数 组 。 它 还 有 第 二 个 参数 ,表示 读 取 图 片 返回 的 形式 ， 


有 三 种 选 择 : cv2.IMREAD COLOR、cv2.IMREAD_ GRAYSCALE 和 cv2.IMREAD - 


UNCHANGED， 其 意义 可 从 字面 获取 ， 其 中 IMREAD UNCHANGED 表示 不 变 ， 比 如 
有 alpha 通道 ， 它 会 读 取 。alpha 通道 的 作用 是 按 比例 将 前 景 像素 和 背景 像素 进行 混合 ， 
来 衡量 图 像 的 透明 度 。 另 外 也 可 以 使 用 数字 来 表达 读 图 模式 ， 比 如 1，0 1 分 别 表示 
COLOR、GRAYSCALE 和 UNCHANGED。 

OpenCV 采用 的 格式 为 HXWXC， 即 高 度 X 宽度 XO 通道 数 ， 通 道 顺序 为 BGR， 
这 与 Python 的 Pillow 库 (RGB) 不 同 。 


17 


深度 学 习 实践 : 计算 机 视觉 


18 





第 5~7 行程 序 代 码 的 作用 便 是 获取 该 图 片 的 高 度 、 宽 度 和 通道 数 ， 第 9 行 可 将 
图 片 显示 出 来 ， 效 果 如 图 2-1 所 示 ， 第 一 个 参数 为 窗口 名 字 的 字符 串 ， 第 二 个 参数 为 
OpenCV 读 入 图 片 返 回 的 Numpy 对 象 , 当 按 下 键盘 上 某 个 键 时 , 第 10 行 会 停止 图 片 显示 ， 
执行 后 续 语句 ， 数 字 0 表示 按键 后 0 毫秒 执行 。 第 12 行 表示 保存 为 新 的 图 片 ， 参 数 为 
保存 地 址 和 图 像 对 象 。 













































































图 2-1 图 像 展 示 





2.2 像素 点 及 局 部 图 像 


为 获取 某 点 的 像素 ， 需 要 有 一 个 简单 的 坐标 概念 ， 以 左上 角 为 (0, 0) 点 ， 即 原点 ， 
向 下 向 右 为 正 。OpenCV 读 图 片 后 返回 的 是 一 个 NumPy 矩阵 对 象 ， 可 以 使 用 下 标 来 获取 
特定 坐标 的 像素 值 。 如 (b, g, r) = image[10, 10] 便 可 得 到 相对 于 左上 角 距离 为 (10, 10) 点 
的 像素 值 ， 其 中 b、g 和 T 分别 代表 蓝 、 绿 、 红 三 色 ， 它 们 组 合 起 来 便 是 某 一 点 的 像素 值 。 
注意 此 处 使 用 了 Python 中 的 tuple 数据 结构 ， 涉 及 packing 和 unpacking 的 操作 ， 同 样 也 
可 以 改变 其 值 ， 如 image[10, 10] = (255, 255, 0)。 

获取 局 部 图 像 可 以 使 用 Python 中 切片 的 概念 ， 如 patch] = image[0:100, 0:100], cv2. 
imshow(“patch1”, patch1), 便 可 显示 此 局 部 图 像 , 也 可 以 进行 修改 , 如 image[0:100, 0:100] 
= (0, 255, 255)， 注 意 所 有 参考 点 均 为 左上 角 ， 如 图 2-2 所 示 。 
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图 2-2 局 部 图 像 与 修改 后 的 局 部 图 像 




















2.3 基本 线条 操作 





OpenCV 提供 了 基本 的 线条 操作 ， 即 画 线 、 画 矩形 、 画 圆 等 。 此 处 仅 以 画 圆 做 展示 ， 
其 他 可 参考 对 应 的 API， 如 cv2.lineQ. cv2.circle(), cv2.rectangle(), cv2.ellipse(). cv2. 
putText() 等 等 ， 主 要 的 参数 会 涉及 图 像 对 象 、 颜 色 、 线 形 和 线条 宽度 等 。 可 参考 官方 
网 站 '。 











import cv2 


import numpy as np 
canvas = np.zeros((300,300,3),dtype-'uint8') 
for in range(0,25): 


radius = np.random.randint (5,200) 


color = np.random.randint (0,256,size-(3,)).tolist() 


o oO A o më Lä HM P^ 


pt = np.random.randint (0,200,size-(2,)) 
10 


tel; cv2.circle (canvas, tuple (pt) , radius, color, -1) 


13 cv2.imshow('Canvas', canvas) 


14 cv2.waitKey (0) 

第 4 行将 生成 一 个 300X300X3 的 全 零 矩阵 ， 即 一 张 黑 色 图 片 ， 第 6-11 行将 画 圆 
圈 , 7 行将 生成 半径 ，8 行将 填充 颜色 ，9 行将 生成 圆 的 中 心 点 ，11 行为 传递 参数 并 画 圆 ， 
重复 25 次 ， 随 机 生成 半径 、 颜 色 和 中 心 点 ， 结 果 如 图 2-3 所 示 。 



































1 https://docs.opencv.org/master/d6/d6e/group imgproc draw.html 
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2-3 几何 形状 作 图 示例 


2.4 平移 


平移 就 是 将 图 片 向 上 下 左右 进行 移动 ,主要 参数 为 含有 方向 和 距离 的 平移 矩阵 ， 如 ; 





BEE 

shifted image = cv2.warpAffine(image, M, (image.shape[1], image. 
shape[0])) 

M 中 的 参数 [1,0,25] 表示 向 [1,0] 方向 移动 25 像素 ，[0, 1, 50] 意义 类 似 ， 最 终 表示 
将 图 片 向 右 移动 25 像素 ， 向 下 移动 50 像素 。 





2.5 旋转 


旋转 即 以 图 片 某 点 为 圆心 ， 并 按 某 角度 顺 时 针 或 逆 时 针 旋 转 ， 如 : 

















(h, w) = image.shape[:2] 
centet = (w EZ bB /7 2) 


M = cv2.getRotationMatrix2D (center, 135, 1.0) 
Rotated image = cv2.warpAffine(image, M, (w, bi) 
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先 获取 高 度 和 宽度 还 有 中 心 点 ， 创 建 旋转 矩阵 M，cv2.getRotationMatrix2D 有 三 个 
BR. 第 一 个 为 旋转 时 固定 的 点 ; 第 二 个 为 旋转 角度 ; 第 三 个 为 图 片 缩放 尺度 ， 其 中 1 
表示 保持 原 图 大 小 。 然 后 进行 仿 射 变换 ， 完 成 旋转 。 


2.6 缩放 


缩放 操作 主要 为 变换 图 片 大 小 可 使 用 cv2.resize() 函数 , 该 函数 可 使 用 的 参数 有 三 个 : 
第 一 个 参数 为 图 像 对 象 ， 第 二 个 参数 为 缩放 尺寸 ， 第 三 个 参数 为 插值 选项 ， 常 用 的 插值 
选项 有 : 





cv2.INTER NEAREST 
cv2.INTER LINEAR 
cv2.INTER CUBIC 
cv2.INTER AREA 
cv2.INTER_LANCZOS4 
cv2.INTER_LINEAR_EXACT 
cv2.INTER_MAX 
cv2.WARP_FILL_ OUTLIERS 
cv2.WARP_INVERSE_MAP 


插值 选项 的 意义 可 查阅 相关 资料 ， 以 下 是 缩放 操作 的 简单 示例 : 


new w, new h = 100, 200 
resized image = cv2.resize(image, (new w, new h), interpolation = 
cv2.INTER AREA) 


该 示例 表示 : 使 用 cv2INTER AREA 插值 方式 ， 将 原 图 image 缩放 为 100pxX 200px 
的 新 图 resized_image. 

可 能 有 读者 对 缩放 概念 的 具体 操作 不 是 特别 清楚 ， 笔 者 简要 说 明 一 下 。 缩 放 分 为 缩 
小 和 放大 ， 针 对 一 张 图 片 ， 缩 小 就 是 删除 其 中 某 些 像素 ， 直 接 达到 需要 缩小 的 目标 尺寸 ， 
所 以 存在 信息 丢失 的 现象 ， 而 放大 则 是 在 图 像 中 添加 一 些 像素 ， 使 图 像 变 大 到 目标 尺寸 。 
插值 就 是 寻找 最 优 删除 或 添加 像素 值 的 方法 。 

如 图 2-4 所 示 为 一 张 3pxX3px 的 图 像 放大 为 6pxX6px 的 图 像 ， 中 间 和 白色 区 域 就 需 
要 确定 像素 值 ， 使 用 不 同 的 方法 ， 会 得 到 不 同 的 值 。 
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插值 点 








图 2-4 图 像 放 大 示意 图 


2.6.1 邻近 插值 


邻近 插值 主要 使 用 前 一 个 点 的 像素 值 作为 新 生成 区 域 的 像素 值 ， 可 用 以 下 示例 进行 
形象 理解 : 首先 对 列 放大 ， 插 入 前 一 个 列 对 应 点 的 值 ， 然 后 对 行 放 大 ， 插 入 前 一 行 对 应 
点 的 值 。 


10 20 30 10 10 20 20 30 30 ` 
5 5 6 6 7 7 
5 6 7|25]5 5 6 6 7 T|2 
5 3 6 
3 


30 50 70 30 30 50 50 70 70 


2.6.2 双 线 性 插值 


双 线 性 插值 则 使 用 邻近 两 点 的 平均 值 为 新 生成 区 域 的 像素 值 ， 同 样 示例 如 下 : 首先 
对 列 放大 ， 揪 入 相 邻 列 对 应 点 的 平均 值 ， 然 后 对 行 放大 ， 插 入 相 邻 行 对 应 点 的 平均 值 。 


10 15 20 25 30 





10 20 30 10 15 20 25 30 7.5 1025 13 15.75 18.5 
5.6 7|2|:5 55 6 65 7]|2| 5 55 6 65 f 
30 50 70 30 40 50 60 70 17.5 22.755 28 3325 37.5 





30 40 50 60 70 
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对 于 OpenCV 而 言 ， 官 方 建议 缩小 使 用 cv2.INTER. AREA, JC f HH cv2.INTER_ 
LINEAR. cv2.INTER_CUBIC 相对 较 慢 ， 如 果 不 特别 指出 ，cv2.resize 会 默认 使 用 cv2. 
INTER LINEAR 插值 方式 。 


























2.7 翻转 


翻转 分 为 水 平 翻转 和 垂直 翻转 ，API 
A cv2.flip), 第 二 个 参数 1 表示 水 平 翻转 ， 
0 表示 垂直 翻转 , -1 表示 水 平 加 垂直 翻转 ， 
如 flipped image = cv2.flip(image, -1) ， 
如 图 2-5 所 示 对 不 同 翻转 进行 了 展示 。 














图 2-5 翻转 图 片 示例 


2.8 Zen 








裁 前 使 用 NumPy 中 的 切片 操作 即 可 ， 即 cropped image = image[x1:x2,yl:y2]。 


2.9 算术 操作 














对 图 像 做 任何 操作 谨 记 图 像 取 值 范围 及 数值 类 型 ， 对 于 RGB 来 说 ， 值 为 [0. 255] 中 
的 一 个 整数 。 故 当 作 加 减 操 作 时 超过 255 Ca 200+100) 或 小 于 0 Chn 100-2000 D, 会 
出 现 什么 情况 呢 ? 
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简单 测试 一 下 NumPy 45 OpenCV 的 差异 : 


x,y = np.uint8([100]), np.uint8([200]) 


cv2.add (x, y) ==>array([[255]], dtype-uint8) 
cv2.subtract (x, y) ==>array([[0]], dtype-uint8) 
xty ==>array([44], dtype-uint8) 
x-y ==>array([156], dtype-uint8) 


Bir UA OpenCV 是 直接 进行 了 截断 操作 ， 而 NumPy 是 取 模 (44=100+200-256, 
156-100-2004256) 。 


2.10 位 操作 





位 操作 是 在 灰 度 图 像素 级 别 的 布尔 运算 ， 下 面 来 看 一 个 例子 : 
rectangle = np.zeros((100, 100), dtype = "uint8") 
cv2.rectangle(rectangle, (30, 30), (70, 70), 255, -1) 
cv2.imshow("Rectangle", rectangle) 

circle - np.zeros((100, 100), dtype - "uint8") 
cv2.circle(circle, (50, 50), 25, 255, -1) 


cv2.imshow("Circle", circle) 


bitwiseAnd = cv2.bitwise and(rectangle, circle) 
cv2.imshow("AND", bitwiseAnd) 


bitwiseOr = cv2.bitwise or(rectangle, circle) 


cv2.imshow("OR", bitwiseOr) 


bitwiseXor = cv2.bitwise xor(rectangle, circle) 


cv2.imshow("XOR", bitwiseXor) 


bitwiseNot = cv2.bitwise not (circle) 


cv2.imshow("NOT", bitwiseNot) 


cv2.waitKey (0) 
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运行 结果 如 图 2-6 所 示 ， 以 上 代码 主要 生成 了 两 张 
图 片 : 两 张 图 片 背景 都 是 黑 底 ， 一 张 图 片 的 图 形 是 白色 
和 矩形， 另 一 张 图 片 的 图 形 是 白色 圆 形 。 然 后 对 两 张 图 片 
分 别 做 了 交集 、 并 集 、 蜡 或 操作 ， 对 圆 形 单独 做 了 一 次 
非 操作 。 






































图 2-6 位 操作 图 示例 





2.11 Masking 操作 





在 前 面 已 经 看 到 了 像素 级 的 布尔 操作 ， 那 么 它 有 什么 用 呢 ? 

此 时 登场 Masking 操作 ， 即 使 用 mask (起 遮 单 效果) 可 以 让 我 们 只 关注 图 像 的 某 
一 区 域 ， 可 以 称 作为 感 兴趣 区 域 (RoI，Regoin of Interest) 。 例 如 人 脸 识别 系统 ， 人 脸 
就 是 Rol， 一 般 不 关注 图 片 中 其 他 非 人 脸 部 分 ， 此 时 就 可 以 用 mask 来 让 OpenCV 只 显 
示 有 人 脸 的 区 域 。 

从 下 面 的 例子 可 以 看 出 ， 黑 色 部 分 (像素 为 0 的 区 域 》 被 忽略 ， 而 白色 部 分 像素 
为 255 的 区 域 》 显 示 了 出 来 ， 主 要 函数 为 cv2.bitwise and(image, image, mask = mask), 
前 两 个 参数 为 原 图 (也 可 不 同 ， 但 尺寸 大 小 得 一 样 ) ， 第 三 个 为 mask， 通 过 它 ， 
bitwise and 只 关注 mask 中 被 打开 的 区 域 (此 处 是 值 为 255 的 区 域 ) ， 此 例 中 只 关注 矩 
形 区 域内 ， 这 样 便 得 到 最 终 效 果 ， 但 这 些 切 片 裁剪 局 部 图 不 太一 样 ，mask 保持 了 原 有 的 
坐标 位 置信 息 。 
































# mask.py 


import cv2 
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实践 : 计算 机 视觉 


import numpy as np 


image — cv2.imread('test.jpg') 


cv2.imshow("image", image) 


mask = np.zeros(image.shape[:2], dtype = "uint8") 


(cX, cY) = (image.shape[1] // 2, image.shape[0] // 2) 
cv2rectangle(mask, (ex — 75, CY — 75) 7 (eX + 5. CT E 75); 2557 


cv2.imshow("Mask", mask) 
masked = cv2.bitwise and(image, image, mask = mask) 


cv2.imshow("Mask Applied to Image", masked) 
cv2.waitKey (0) 


结果 如 图 2-7 所 示 。 





图 2-7 Mask 示例 


.12 色彩 通道 分 离 与 融合 





如 果 想 分 离 彩 色 图 片 的 不 同 通道 ， 然 后 展示 ， 应 该 如 何 操作 呢 ? 
下 面 给 出 了 通道 分 离 与 还 原 的 示例 ,分 离 主要 使 用 split 方法 ， 融 合 则 用 merge 方法 ， 
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import numpy as np 


import cv2 


image = cv2.imread('test.jpg') 
(B, G, R) = cv2.split (image) 
merged = cv2.merge([B, G, R]) 
cv2.imshow("Red", R) 
cv2.imshow("Green", G) 
cv2.imshow("Blue", B) 
cv2.imshow("Merged", merged) 
cv2.waitKey (0) 





图 2-8 通道 分 离 与 融合 


2.13 颜色 空间 转换 





到 现在 已 经 接触 了 RGB 颜色 空间 ， 此 外 还 有 HSV, LXaxb 等 颜色 空间 。HSV 空 
间 表 达 比 RGB 表达 更 加 接近 人 类 对 色彩 的 感知 ， 而 LXaXb tk HSV 更 胜 一 筹 。 
OpenCV 支持 超过 150 种 颜色 空间 ， 下 面 展 示 一 些 空间 转换 示例 。 
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颜色 空间 转换 主要 使 用 cv2.cvtColor 函数 ， 第 一 个 参数 为 需要 进行 转换 的 图 像 对 
象 ， 第 二 个 为 颜色 空间 转换 形式 ， 常 用 的 有 cv2.COLOR BGR2GRAY, cv2.COLOR_ 
BGR2HSV 等 ,其 意义 顾名思义 ,不 再 做 详 述 .所 有 的 颜色 空间 转换 可 从 官方 网 站 ?中 查询 。 


image = cv2.imread('test.jpg') 


cv2.imshow("Original", image) 


gray = cv2.cvtColor(image, cv2.COLOR BGR2GRAY) 


cv2.imshow("Gray", gray) 


hsv = cv2.cvtColor(image, cv2.COLOR BGR2HSV) 


cv2.imshow("HSV", hsv) 


lab = cv2.cvtColor(image, cv2.COLOR BGR2LAB) 
cv2.imshow("L*a*b*", lab) 


cv2.waitKey (0) 


244 颜色 直方 图 


颜色 直方 图 是 什么 呢 ? 简单 说 它 就 是 图 片 中 像素 点 的 分 步 ， 通 过 统计 ， 可 以 直观 地 
用 曲线 表达 出 哪些 像素 值 多 ， 哪 些 像素 值 少 。 

在 RGB 空间 下 , 可 以 简单 地 将 值 域 分 为 4 个 区 间 , 每 个 区 间 代 表 一 个 64px (pixel) , 
即 [0,64)、[64.128)、[128,192)、[192,255] 4 个 区 间 ， 然 后 统计 图 片 中 所 有 像素 落 在 这 4 
个 区 间 的 像素 点 个 数 ， 最 后 作 图 展示 出 来 。 

OpenCV 使 用 cv2.calcHist 方 法 来 计算 直方 图 ， 参 数 有 images. channels, mask, 
histSize 和 ranges。 其 中 ，images 为 图 像 列表 ， 如 [image]; channels 为 通道 索引 ， 比 如 
灰 度 图 为 [0]， 彩 色 图 用 [0,1,2]; mask 参数 如 果 提 供 ， 则 只 计算 mask KF 0 的 区 域 ， 
不 使 用 则 传 None EAT; histSize 针对 所 统计 通道 设置 区 间 数 ， 如 彩色 三 通道 [8,8,8]; 
ranges 为 像素 点 值 域 ， 对 于 RGB， 为 [0,256]， 其 他 空间 请 参考 对 应 值 域 。 





import cv2 


from matplotlib import pyplot as plt 


2 https:;//docs.opencv.org/master/d7/dlb/group imgproc misc.html 
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image = cv2.imread('test.jpg') 


gray image = cv2.cvtColor(image, cv2.COLOR BGR2GRAY) 
hist = cv2.calcHist([gray image], [0], None, [256], [0, 256]) 


plt.figure() 

pl = plt.subplot (121) 
p2 = plt.subplot (122) 
#Grayscale Histogram 
pl.plot (hist) 


chans = cv2.split (image) 

colors = e men 

#Color Histogram " 

for (chan, color) in zip(chans, colors): 
hist = cv2.calcHist([chan], [0], None, [256], [0, 256]) 
p2.plot (hist, color = color) 




















plt.show() 
统计 结果 如 图 2-9 所 示 。 
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图 2-9 颜色 直方 图 


2.15 平滑 与 模糊 
平滑 与 模糊 即 失 去 焦点 ， 致 使 看 不 到 图 像 细 节 ， 即 像素 点 与 周围 的 像素 点 混合 了 ， 
在 边缘 检测 方面 很 有 用 处 。 常 用 的 平滑 方法 有 均值 、 高 斯 、 中 值 、 双 边 ， 示 例如 下 : 























H 
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import numpy as np 


import cv2 
image = cv2.imread('test.jpg') 


blurred - np.hstack([ 
cv2.blur(image, (3, 3)), 
cv2.blur(image, (5, 5)), 
cv2.blur(image, (7, 7))]) 


cv2.imshow("Averaged", blurred) 


blurred - np.hstack([ 
cv2.GaussianBlur(image, (3, 3), 0), 
cv2.GaussianBlur(image, (5, 5), 0), 
cv2.GaussianBlur(image, (7, 7), 0)]) 


cv2.imshow("Gaussian", blurred) 


blurred - np.hstack([ 
cv2.medianBlur(image, 3), 
cv2.medianBlur(image, 5), 
cv2.medianBlur(image, 7)]) 


cv2.imshow("Median", blurred) 


blurred - np.hstack([ 
cv2.bilateralFilter(image, 5, 21, 21), 
cv2.bilateralFilter(image, 7, 31, 31), 
cv2.bilateralFilter(image, 9, 41, 41)]) 

cv2.imshow("Bilateral", blurred) 


cv2.waitKey (0) 


代码 (如 cv2.blur) 中 里 面 的 (3, 3) 参数 为 卷 积 核 ， 也 可 以 称 为 感受 野 ， 注 意 是 奇数 ， 
均值 平滑 会 在 感受 野 内 作 平 均 ， 感受 野 越 大 ， 平 滑 效 果 越 好 ;高 斯 平滑 则 使 用 高 斯 来 求 
感受 野 中 的 像素 值 的 期 望 ， 比 简单 的 均值 更 加 自然 ，GaussianBlur 中 第 三 个 参数 0 表示 
自动 计算 核 大 小 ; 中 值 对 去 除 椒盐 噪声 十 分 有 用 ， 使 用 感受 野 中 像素 值 的 中 位 数 ， 双 边 
平滑 通过 引入 两 个 高 斯 分 步 ， 在 去 除 噪声 与 细节 的 同时 保留 了 边缘 信息 ， 但 处 理 速度 相 
对 较 慢 。 


深 作 ， 得 到 如 图 2-10 所 示 的 
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2.16 边缘 检测 


8 2-10 平滑 与 模糊 示例 





Si 














OpenCV 中 的 边缘 检测 方法 有 Canny, 
青 请 查阅 相关 论文 。 请 看 下 面 的 示例 。 


= Hk 


值 抑制 与 滞后 阔 值 ， 详 





import numpy as np 
import cv2 


image 


cv2.imshow("image", image) 


blured 
blured 


cv2.imshow("Blurred", 


canny 


— cv2.Canny (blured, 
cv2.imshow("Canny", canny) 


cv2.waitKey (0) 





cv2.GaussianBlur (blured, 
blured) 


30, 





E 


以 上 代码 先 将 图 像 转换 为 灰 度 














主要 过 程 包括 : 平滑 降 噪 ， 求 梯度 ， 非 极 大 


cv2.imread('test.jpg') 


cv2.cvtColor (image, cv2.COLOR BGR2GRAY) 


(5, 5), 0) 


150) 


， 然 后 进行 平滑 操作 ， 最 后 使 用 Canny 算 子 进行 边 











缘 检 测 ， 检 测 结果 如 图 2-11 所 示 。 
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图 2-11 边缘 检测 示例 
OpenCV 除了 常规 的 图 像 操作 外 ， 还 有 一 些 常用 的 机 器 学 习 与 深度 学 习 算法 ， 本 节 
将 选取 其 中 的 人 脸 和 人 眼 检测 作 示 范 讲解 。 


2.17 人 脸 和 眼睛 检测 示例 





OpenCV 也 有 人 脸 检测 功能 ， 这 是 属于 相对 高 级 的 操作 。 

OpenCV 中 的 检测 功能 主要 使 用 Haar 级 联 分 类 器 ， 也 有 已 经 预 训练 好 的 模型 ， 可 以 
直接 调用 ， 如 何 训练 模型 请 参考 官方 网 站 文档 。 

这 种 级 联 分 类 器 会 从 左 到 右 ， 从 上 到 下 ， 用 不 同 大 小 的 框 去 扫描 整 张 图 片 ， 即 滑 窗 。 
滑 窗 每 移动 一 个 像素 ， 分 类 器 便 会 检测 滑 窗 内 是 否 有 人 脸 。 

以 下 代码 是 人 脸 和 眼睛 的 检测 示例 ， 其 中 第 4 行将 彩色 图 转换 为 灰 度 图 主要 是 为 了 


提高 计算 速度 。 


import cv2 


gray = cv2.cvtColor(image, cv2.COLOR BGR2GRAY) 


1 
2 
3 image = cv2.imread('test face.jpg') 
4 
5 


6 faceCascade 
default.xml') 

7 faces rects 

8 

9 

10 


cv2.CascadeClassifier('haarcascade frontalface 


faceCascade.detectMultiScale (image, 
scaleFactor = 1.05, 

minNeighbors = 5, minSize = (30, 30), 
flags = cv2.CASCADE SCALE IMAGE) 


18 
19 
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eye cascade = cv2. CascadeClassifier("' haarcascade eye.xml') 


for (x,y,w,h) in faces rects: 


img = cv2.rectangle (img, (x,y), (xtw, y*h) , (255,0,0),2) 
roi gray = gray[y:yth, x:x+w] 

roi color = img[y:yth, x:x+w] 

eyes = eye cascade.detectMultiScale(roi_gray) 

for (ex,ey,ew,eh) in eyes: 


cv2.rectangle(roi_color, (ex,ey), (extew,ey* 


eb), (0,255,0),2) 


20 


21 cv2.imshow('image',image) 
22 cv2.waitKey (0) 


以 上 代码 中 , ev2.CascadeClassifier(param file) 分 类 器 接收 一 个 XML 文件 地 址 参数 ， 








此 文件 可 以 从 官方 网 站 ? 下载, 然后 就 可 以 使 用 detectMultiScale 方 法 进行 目标 (人 脸 ) 检 测 。 
scaleFactor 表示 图 片 缩放 比例 ， 用 于 对 图 片 进行 多 尺度 金字 塔 创建 ，1.05 表示 在 金 
字 塔 层 上 ， 逐 层 减 小 图 片 尺寸 的 5%; minNeighbors 表示 滑 窗 内 需要 检测 多 少 个 矩形 来 


确认 有 人 脸 ; minSize 表示 最 小 滑 窗 的 大 小 ， 分 类 器 不 会 考虑 比 这 个 值 小 的 滑 窗 。faces_ 








rects 为 代表 了 有 人 脸 的 矩形 框 ， 是 一 个 列表 ， 一 个 矩形 框 表示 为 (x,y,w,h)，xy 表示 左上 
点 坐标 ，wh 表示 宽 高 。 通 过 第 14 行 循环 画 出 人 脸 框 。 
运行 结果 如 图 2-12 所 示 。 











到 2-12 人 脸 和 眼睛 检测 示例 











3 https://github.com/opencv/opencv/tree/master/data/haarcascades 
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然后 可 以 利用 第 12 行 生成 一 个 眼睛 的 分 类 器 ， 再 在 每 个 人 脸 区 域 进 行 眼睛 检测 ， 
并 画 出 眼睛 , 展示 结果 。 可 以 看 出 该 分 类 器 能 检测 出 一 些 人 脸 与 眼睛 , 但 也 有 部 分 失败 了 。 
上 述 代码 中 关于 眼睛 的 检测 示例 代码 是 在 人 脸 检 测 成 功 的 情况 下 才 进 行 眼睛 检测 ， 
为 什么 要 这 样 做 呢 ? 
简单 说 来 就 是 因为 滑 窗 是 一 个 非常 耗 时 的 操作 ， 从 左 到 右 ， 从 上 到 下 ， 加 上 不 同 尺 
度 的 滑 窗 扫描 ， 计 算 量 是 非常 大 的 ， 而 
正常 情况 下 眼睛 是 在 人 脸 区 域内 的 ， 所 
以 与 扫描 整 张 图 片 对 比 ， 只 扫描 有 人 脸 的 
那个 矩形 区 域 ， 计 算 量 明显 会 大 大 减 小 ， 
有 兴趣 的 读者 可 以 试 试 扫描 整 张 图 片 来 检 
测 眼睛 ， 这 里 只 给 出 结果 ( 见 图 2-13〉， 
读者 可 以 自己 练习 代码 。 另 外 OpenCV 
还 训练 了 其 他 的 检测 模型 ， 比 如 笑脸 、 
上 身 、 下 身 、 车 牌 、 猫 脸 等 ， 读 者 可 以 
尝试 。 图 2-13 眼睛 检测 示例 

































































当然 对 于 视频 或 摄像 头 也 可 以 用 OpenCV 做 类 似 的 操作 (cv2.VideoCapture 方 法) ， 
在 视频 或 摄像 头 中 取 一 帧 就 可 以 得 到 一 张 图 片 ， 后 续 操作 类 似 ， 如 果 读 取 视 频 所 有 帧 或 
一 直 循环 摄像 头 便 可 作 人 脸 和 眼睛 跟踪 ， 在 此 不 做 装 述 ， 以 下 展示 部 分 代码 示例 : 








import cv2 


faceCascade = cv2.CascadeClassifier ( 

'/home/test/opencv/data/haarcascades/haarcascade frontalface | 
default.xml') 

eye cascade = cv2.CascadeClassifier ( 

'/home/test/opencv/data/haarcascades/haarcascade eye.xml') 


camera = cv2.VideoCapture (0) 


while True: 


(success, image) = camera.read() 


gray = cv2.cvtColor(image, cv2.COLOR BGR2GRAY) 
faces_rects = faceCascade.detectMultiScale (image, 


scaleFactor = 1.1, 
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minNeighbors = 5, minSize = (30, 30), 


flags — cv2.CASCADE SCALE IMAGE) 


image copy - image.copy() 
for (x,y,w,h) in faces rects: 
img = cv2.rectangle (image copy, (x, y), (x+w, yth), (255,0,0) ,2) 
roi gray = gray[y:y*h, x:xtw] 
roi color = image copy[y:yth, x:x*w] 
eyes = eye cascade.detectMultiScale (roi gray) 
for (ex,ey,ew,eh) in eyes: 
cv2.rectangle (roi color, (ex,ey), (extew,eyteh) , (0,255,0),2) 


cv2.imshow("Face and Eyes", image copy) 
if not success: 

break 
if cv2.waitKey(1) & OxFF == ord("q"): 


break 


camera.release() 
cv2.destroyAllWindows () 


2.18 本 章 总 结 





本 章 介绍 了 OpenCV 对 图 像 的 基本 操作 及 部 分 高 级 操作 ， 包 括 平 移 、 裁 前 、 旋 转 、 
Mask 操作 以 及 人 脸 和 眼睛 检测 等 内 容 。 

另外 Python 中 的 Pillow 包 也 有 类 似 的 基本 操作 ， 对 于 检测 还 有 一 款 包 叫 作 Dlib ， 
功能 更 加 强大 ， 操 作 更 加 简单 ， 它 支持 C++ 和 Python 接口 ， 官 方 网 站 也 有 很 多 例子 。 
此 外 基于 Dlib 开发 的 face recogintion 包 ”， 对 于 人 脸 及 关键 点 检测 也 十 分 方便 ， 官 方 网 
站 repo 中 示例 也 很 多 。 


4 http://dlib.net 
5 https://github.com/ageitgey/face_recognition#face-recognition 
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目前 深度 学 习 领 域 发 展 很 快 ， 涌 现 出 了 一 大 批 深度 学 习 框架 ， 本 章 将 对 主流 框架 做 


笔者 接触 到 的 框架 主要 有 三 类 : 动态 框架 〈 命 令 式 编程 ) 、 静 态 框架 (符号 式 编程 
以 及 二 者 结合 的 框架 。 

动态 框架 的 典型 代表 主要 有 Chainer, PyTorch 和 DyNet， 静 态 框架 主要 代表 有 
TensorFlow《〈 目 前 Google 也 致力 于 在 TensorFlow 中 加 入 动态 特性 ) ， 结 合 动态 和 静态 
优点 的 下 一 代 框 架 以 MXNet 为 代表 。 

命令 式 编程 使 用 编程 语句 改变 程序 状态 ， 编 写 方便 且 符 合 直觉 但 性 能 相对 较 差 ， 
Python 就 是 这 种 类 型 的 编程 语言 ， 而 符号 编程 通常 在 定义 好 计算 流程 后 才 被 编译 为 可 执 
行 的 程序 ， 然 后 给 定 输入 获取 输出 ， 高 效 且 易 移植 ， 这 类 程序 以 C++ ARE. 

Keras 和 Gluon 都 是 对 低层 框架 的 更 高 级 封装 ， 使 用 起 来 更 加 方便 ， 适 合 进 行 快速 
原型 开发 ， 如 果 想 对 整个 系统 有 更 好 的 控制 ， 低 层 框架 会 更 加 适合 。 


Theano T 2017 年 9 月 宣布 停止 维护 ， 所 以 不 建议 读者 花 时 间 和 精力 在 此 框架 上 。 

另外 还 有 Java 类 的 深度 学 习 框架 Deeplearming4j， 本 书 不 作 介绍 。 

关于 CUDA 安装 请 参考 网 上 教程 ， 建 议 使 用 较 新 的 CUDA 9.2〈 笔 者 使 用 的 是 
CUDA 9.1) 和 cuDNN 7.1。 

虽然 框架 众多 ， 但 总 的 概念 及 模型 训练 流程 差异 不 大 ， 所 以 建议 先 吃透 一 个 框架 ， 
然后 再 去 研究 其 他 框架 的 使 用 方法 ， 这 样 会 轻松 许多 ， 思 路 和 概念 也 不 会 太 乱 。 

动态 框架 使 用 的 核心 概念 为 动态 图 ， 即 边 运行 边 生 成 计算 图 ， 它 会 在 运行 过 程 中 记 
录 程 序 计算 历史 而 非 计 算 逻 辑 ， 每 次 运行 过 程 中 计算 图 都 需要 重新 生成 ， 静态 框 架 使 用 
的 核心 概念 为 静态 图 ， 即 一 次 性 生成 计算 图 并 对 计算 图 做 优化 ， 计 算 图 是 固定 的 ， 所 有 
的 数据 处 理 逻 辑 必 须 存 入 图 中 ， 运 行 时 将 一 直 使 用 此 计算 图 。 

另外 现在 深度 学 习 应 用 中 常常 会 用 到 多 GPU 来 提高 训练 速度 ， 多 GPU 常常 包含 两 
种 策略 : 模型 并 行 和 数据 并 行 。 

模型 并 行 常 指 模型 内 部 的 计算 并 行 ， 假 如 模型 有 4 层 ， 为 了 有 效 利 用 多 GPU， 可 以 
使 GPU 在 计算 完 第 二 层 和 第 四 层 后 进行 通信 ， 达 到 一 份 数据 在 两 个 模型 中 同时 计算 的 
目的 ， 两 个 模型 都 使 用 了 同样 的 全 量 批 数据 。 

(GPU0) input --+-->layerl-->layer2 --4--»layer3--»layer4--4--» output 

1 1 l 

(GPU1) +-->layer1l-->layer2 --+-->layer3-->layer4--+ 

而 数据 并 行 常 指 对 每 个 batch 数据 进行 分 片 ， 分 为 多 个 小 块 数据 ， 每 个 小 块 数据 放 
到 一 个 模型 中 进行 计算 ， 即 对 同一 份 全 量 批 数据 ， 每 个 模型 的 训练 只 利用 其 中 一 部 分 数 
据 。 训 练 过 程 中 会 选取 一 个 主 设备 ， 它 会 收集 所 有 模型 根据 自己 得 到 的 不 同 的 小 块 数据 ， 
计算 出 的 模型 参数 梯度 ， 得 到 该 batch 总 的 模型 参数 梯度 ， 然 后 复写 到 其 他 模型 中 ， 达 
到 所 有 模型 各 自 完成 参数 更 新 的 目标 ， 通 过 这 样 的 方式 完成 数据 并 行 。 

对 于 计算 机 视觉 来 说 ， 训 练 神经 网 络 的 主要 流程 (监督 学 习 〉 如 下 : 


(1) 带 标签 的 数据 准备 。 

(2) 搭建 对 应 的 神经 网 络 。 

(3) 设计 损失 函数 。 

CA 将 图 像 转换 为 矩阵 组 成 批 (Batch), 送 入 神经 网 络 中 , 经 过 层 层 计算 , 得 到 输出 。 


6 https://docs.nvidia.com/cuda/cuda-installation-guide-linux/index.html 
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(5) 将 输出 与 真 值 标签 运用 损失 函数 算出 错误 指标 losso 

(6) 对 loss 进行 链 式 求 导 ， 反 传 到 神经 网 络 中 ， 利 用 优化 算法 〈 如 梯度 下 降 法 等 ) 
进行 权重 参数 更 新 。 

C) 训练 到 一 定 程 度 的 时 候 , 取 另 外 一 部 分 带 标签 的 数据 进行 测试 , 可 得 到 错误 率 ， 
准确 率 等 统计 数据 。 

(8) 观察 训练 和 测试 〈loss/accuracy) 变化 情况 ， 判 断 是 否 有 过 拟 合 。 


训练 调 参 到 满意 的 程度 ， 最 后 在 真正 的 测试 集 上 再 测试 一 次 ， 如 果 效 果 满 意 便 可 进 
行 生产 部 署 。 


3.1 PyTorch 





PyTorch 由 Facebook 于 2017 年 开源 ， 支 持 动态 计算 图 ， 借 鉴 了 Chainer 和 Torch, 
在 处 理 变 长 输入 和 输出 方面 优势 明显 ， 比 如 应 用 在 自然 语言 处 理 CNLP, Natural 
Language Processing) 中 。PyTorch 目前 最 新 版 本 为 0.4.0， 本 书 将 使 用 此 版 本 。 

安装 程序 步 又 可 参考 官方 网 站 ', 本 书 的 编程 环境 为 Ubuntu1604、Titan Xp (CUDA9.1)、 
Python3.6.5、Conda 管理 包 ， 选 择 界面 如 图 3-1 所 示 ， 安 装 命令 为 : 


conda install pytorch torchvision cuda91 -c pytorch 





Get Started. 


Run this command: conda install pytorch torchvision cuda91 -c pytorch 














图 3-1 PyTorch 安装 命令 


1 https://pytorch.org/ 


3.1.1 Tensor 


PyTorch 核心 概念 是 动态 图 、 张 量 (Tensor) RPE. Tensor 可 以 简单 地 理解 为 高 维 
数组 ， 与 NumPy 矩阵 类 似 ， 带 有 一 定 的 方法 和 属性 ， 但 Tensor 可 以 使 用 GPU 加 速 ， 一 
维 张 量 可 视 为 标量 ， 即 纯 数字 ， 二 维 张 量 可 视 为 数组 或 矩形 表 〈 灰 度 图 ) ， 三 维 张 量 可 
看 作 立 方 体 表 〈 彩 色 图 ) ， 四 维 张 量 如 视频 ， 当 然 还 有 更 高 维 的 张 量 。 

Tensor 的 使 用 请 看 以 下 示例 : 


import torch as t 


print (t.empty (2,3)) # 分 配 空间 ， 但 未 初始 化 
print (t.rand(2,3)) #7E [0,1] 均匀 随机 初始 化 
#output 


tensor ([[-6.0193e+10, 4.5902e-41, 1.3356e-37], 
[ 0.0000e+00, 4.4842e-44, 0.0000e+00]]) 
tensor([[ 0.3285, 0.3328, 0.3363], 
[ 0.3214, 0.4482, 0.5949]]) 


该 示例 用 于 获取 Tensor 的 形状 ， 支 持 两 种 索引 方式 TensorsizeO[i] 和 Tensor.size(i), 
两 种 方式 等 价 ， 其 中 size 的 效果 类 似 于 NumPy 中 的 shape， 见 如 下 示例 : 


print (t.rand(12,13) .size()) 
print (t.rand(12,13) .size() [1]) 
print (t.rand(12,13) .size(0)) 


#output 
torch.Size([12, 13]) 
13 

12 


下 面 代码 以 加 法 为 例 〈 减 法 、 乘 法 、 除 法 等 操作 类 似 ) 说 明 算术 运算 的 几 种 方式 。 
可 以 看 到 三 种 加 法 操作 结果 一 样 ， 但 23 的 操作 方法 必须 先 初 始 化 一 个 目标 形状 的 矩阵 ， 
然后 才 使 用 关键 字 out。 另 外 还 可 以 使 用 z4=x.add(y)， 此 时 会 将 加 法 结果 (一 个 新 的 
Tensor) 赋值 给 z-4， 修 改 原 值 的 操作 需要 加 _， 如 xadd (y): 
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LS e Ee te se 
E E y. 

22 t.add (x,y) 

z3 = t.Tensor (2,3) 
t.add (x, y, out-z3) 


print (z1, 22,23) 


z4 = x.add(y) 
print (x) 
x.add (y) 
print (x) 


#output 
tensor([[ 0.8985, 1.1798, 1.0203], 
[ 0.93797, 126840,  1:1765]1) tensor([I[ 0-8985; 1:1798; 
1.0203], 
[20293197 1.6840, 1.176511) tensor RUE 1:1798; 

1.0203], 
[ 
tensor ([[ 
[ 
tensor ([[ 


[ 


索引 获取 即 切片 与 NumPy 类 似 ， 将 矩阵 的 形状 重新 变换 使 用 view 操作 ， 类 似 于 
NumPy 中 的 reshape 操作 ， 操 作 要 求 前 后 矩阵 大 小 一 样 : 


x = t.rand(3,4) 


.9379, 1.6840, 1.1765]]) 
.4965, 0.7843, 0.2315], 
.3911, 0.8524, 0.9054]]) 
.8985, 1.1798, 1.0203], 
.9379, 1.6840, 1.1765]]) 





e eO © 


print (x) 
print( x[:,2:4]) $ 取 第 3-4 列 ， 下 标 从 0 开始 
print( x[0:2,:]) # BOR 1-2 fT 


print( x[0:2,1:3]) 4H 1~2 47, 2-3 列 相交 的 区 域 


#output 

tensor([[ 0.1550, 0.3647, 0.6956, 0.4983], 
[ 0.2763, 0.1134, 0.9641, 0.1543), 
OT 2110/31289 0.4133; 104536911) 

tensor([[ 0.6956, 0.4983], 
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[ 0.9641, 0.1543], 
[ 0.4133, 0.5369]]) 

tensor([[ 0.1550, 0.3647, 0.6956, 0.4983], 
[ 0.2763, 0.1134, 0.9641, 0.1543]]) 

tensor([[ 0.3647, 0.6956], 
[ 0.1134, 0.9641]]) 


有 时 如 果 想 用 NumPy 的 操作 ， 但 Tensor 又 不 支持 ， 怎 么 办 呢 ? 其 实 它们 之 间 的 相 
互 转 换 操 作 起 来 也 十 分 方便 快捷 ， 两 者 矩阵 数据 存储 共享 ， 故 一 个 改变 ， 另 一 个 也 会 跟 
随 着 改变 。 

下 面 示例 便 是 如 此 ， 这 里 没有 直接 对 y 作 操 作 ， 只 对 x 的 每 个 元 素 加 1， 但 结果 表 
现 为 y 和 x 数值 变化 一 样 。 从 NumPy 转换 为 Tensor 只 需 调 用 from numpy 方法 即 可 : 


x = t rand{2, 3) 

y = x.numpy() 

print (type (x), type (y) ) 
x.add (1) 

print (x, y) 

z = t.from numpy(y) 
print (type (z)) 


#output 
<class 'torch.Tensor'> <class 'numpy.ndarray'» 
tensor([[ 1.1672, 1.4772, 1.4756]; 
[ete SSO EE EES 
[[1.1671882 1.4771868 1.4756109] 
[1.5880387 1.1556346 1.7043335]] 


<class 'torch.Tensor'> 


Tensor 可 以 通过 “.to” 方 法 来 将 数据 移动 到 其 他 设备 ， 如 GPU 上 ， 可 以 直接 在 某 
设备 上 创建 Tensor， 需 要 提前 获取 设备 对 象 ， 也 可 以 使 用 to(device) BK to("string") 来 转 
移 原 有 数据 到 指定 设备 上 并 改变 数据 类 型 : 

if t.cuda.is available(): # 检查 是 否 有 GPU 

device = t.device ("cuda") # CUDA 设备 对 象 


y = t.ones_like(x, device-device) # 在 GPU 上 创建 Tensor 


x — x.to(device) 
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x2 — x.to("cuda") 

cC En 

print (z) 

print(z.to("cpu", t.double)) 


#output 
tensor([[ 1.6168, 1.8657, 1.9190], 

[ 1.0523, 1.0626, 1.0878]], device-'cuda:0') 
tensor([[ 1.6168, 1.8657, 1.9190], 

[ 1.0523, 1.0626, 1.0878]], dtype-torch.float64) 


3.1.2 Autograd 


PyTorch 中 神经 网 络 的 核心 模块 为 自动 求 导 模 块 Autograd，Autograd 提供 了 基于 
Tensor 的 自动 微分 操作 ，define-by-run 即 边 运动 边 计算 ， 反 向 传播 由 运行 时 决定 ， 即 所 
谓 的 动态 特性 。 

如 果 将 Tensor 变量 w 的 属性 requires. grad 设 为 True，PyTorch 便 会 在 计算 时 追踪 
这 些 变量 ， 经 过 一 系列 的 运算 后 ， 再 对 最 终结 果 〈 如 loss) 使 用 .backward() 方法 ， 那 么 
PyTorch 便 会 自动 计算 出 Joss 对 w 的 微分 ， 可 以 使 用 w.grad 查看 对 应 的 值 。 

如 果 想 脱离 追踪 可 使 用 .detach() 方法 ， 如 果 整 个 计算 都 不 需要 计算 梯度 了 ， 此 时 可 
使 用 with tno_grad) 上 下 文 管理 语句 ， 在 语句 块 内 的 计算 都 不 会 追踪 计算 历史 ， 进 而 没 
有 梯度 计算 。 

Tensor 和 Function 一 起 会 构建 一 种 有 向 无 环 图 ， 即 计算 历史 ， 每 个 变量 会 有 一 
个 grad fn 属性， 此 属性 指向 创建 此 Tensor 的 一 个 Function， 如 c=atb5， 那 么 c.grad fn 
就 表示 前 面 的 加 法 函数 ， 如 果 是 用 户 手动 创建 的 变量 ， 那 么 此 值 为 None。 

调用 backward 方法 时 注意 ， 如 果 变 量 为 标量 ， 那 么 直接 使 用 ， 无 需 带 参数 ， 如 果 
变量 有 多 个 元 素 ， 那 么 需要 指定 gradient 参数 ， 形 状 要 与 被 微分 的 变量 形状 一 样 ， 示 例 
中 c 为 2x3， 那 么 gradients 形状 也 应 为 2X3， 可 以 看 出 a 的 梯度 与 < 成 两 倍 关系 ， 符 
合 预 期 ; 


import torch as t 


a — t.rand(2,3, requires grad-True) 
b = t.rand(2,3) 
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c= era tb 


print(a.grad fn,b.grad fn,c.grad fn) 





gradients = t.tensor([[0.1, 1.0, 0.001], 
[0.1, 10, 1.0]], dtype-t.float) 
c.backward (gradients) 


print (a.grad) 


#output 
None None «AddBackwardl object at 0x7fe5866899e8» 
tensor([[ 0.2000, 2.0000, 0.0020], 

[ 0.2000, 20.0000, 2.0000]]) 


3.1.3 Torch.nn 


PyTorch 中 还 包括 神经 网 络 工具 包 torch.nn， 它 已 经 与 Autograd 集成 ， 所 以 调用 起 
来 十 分 方便 。 

对 于 计算 机 视觉 领域 , 常用 的 有 卷 积 nn.Conv2d 操 作 ( 对 某 块 小 区 域 作 线性 加 权 平 均 ， 
再 移动 小 区 域 ， 重 复 这 个 过 程 》， 池 化 nn.MaxPool2d 操作 (其 实 也 可 以 当 作 一 种 特殊 
的 卷 积 ， 只 取 最 大 值 ， 而 非常 规 的 加 权 平 均 ) 以 及 全 连接 nn.Linear 操作 《〈 即 线性 变换 ) 。 

下 面 定义 了 一 个 简单 的 卷 积 神经 网 络 , 可 以 看 到 convl 为 一 个 大 小 为 3X3 的 卷 积 核 ， 
单 通道 输入 经 过 它 会 变 为 20 通道 的 输出 ， 经 过 Frelu 激活 函数 ， 输 出 大 于 0 的 将 被 保留 ， 
小 于 0 的 置 0，pooll 将 使 宽 高 减 半 ， 重 复 这 个 过 程 ， 最 后 经 过 几 个 全 连接 层 得 到 最 终结 
果 ， 这 就 是 一 个 神经 网 络 。 

计算 机 视觉 领域 的 神经 网 络 一 般 输 入 为 一 个 4 维 张 量 ， 即 : 样本 数量 xX 通道 
BUX 高 度 X 宽度 ， 或 者 样本 数量 X 高 度 X 宽度 X 通道 数 ，PyTorch 采用 前 者 格式 
(NXCXHXW) ， 可 以 人 为 制造 一 些 数据 ， 如 示例 中 的 x 表 示 3 张 28X28 的 灰 度 图 ( 通 
道 数 为 1 对 应 com) 中 的 输入 通道 1， 如 果 convl 中 输入 通道 为 3， 那 么 我 们 就 应 该 用 
RGB 彩色 图 ) ， 输 出 ?7 为 一 个 3X10 的 张 量 ， 如 果 说 是 30 分 类 ， 那 么 结果 就 可 简单 理 
解 为 每 张 图 对 应 着 10 类 的 概率 大 小 (真正 测试 时 应 该 做 一 个 softmax) 。 





import torch as t 


import torch.nn as nn 
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import torch.nn.functional as 下 


class SimpleConvNet (nn.Module): 


def — init (self): 
super(SimpleConvNet, self). init  () 
self.convl = nn.Conv2d(1, 10, 3) 
nn.MaxPool2d(2, 2) 
nn.Conv2d(10, 20, 3) 


self.pooll 


self.conv2 


self.pool2 = nn.MaxPool2d(2, 2) 
self.fcl = nn.Linear(512, 128) 
self.fc2 = nn.Linear(128, 10) 


def forward(self, input): 
= self.pooll(F.relu(self.conv1 (input) )) 
= self.pool2(F.relu(self.conv2 (x) )) 


= F.relu(self.fcl (x) ) 
= F.relu(self.fc2 (x) ) 
return x 


x 
x 
x = x.view(x.size(0), -1) 
x 
x 


net = SimpleConvNet () 
print (net) 


x 


Y 
print (y) 


t:rand(3,1,28728) 


net (x) 


#output 
SimpleConvNet ( 
(conyl): Conv2d(1, 10, kernel size=(3, 3), stride=(1; 1)) 
(pooll): MaxPool2d(kernel size-2, stride-2, padding=0, 
dilation=1, ceil mode-False) 
(conv2): Conv2d(10, 20, kernel size—(3, 3), stride-(1, 1) 
(pool2): MaxPool2d(kernel size-2, stride-2, padding-0, 
dilation-1, ceil mode-False) 


(fcl): Linear(in features-512, out features-128, bias-True) 
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(fc2): Linear(in features-128, out features-10, bias=True) 


) 


tensor([[ 0.0000, 0.0000, 0.0122, 0.0592, 0.0000, 0.1417, 
0.0000, 


0.0774, 0.0720, 0.0429], 
[ 0.0000, 0.0000, 0.0128, 0.0541, 0.0000, 0.1348, 
0.0000, 
0.0764, 0.0869, 0.0453], 
[ 0.0000, 0.0000, 0.0101, 0.0601, 0.0000, 0.1382, 
0.0000, 


02077107 0:0659; 70205491) 


得 到 结果 后 ， 再 利用 损失 函数 使 用 真实 标签 (Ground Truth) 算出 损失 ， 然 后 进行 
微分 求 导 ， 选 用 一 种 优化 算法 ， 不 断 更 新 神经 网 络 里 的 参数 值 ， 使 得 更 新 后 的 网 络 得 到 
的 loss 结果 尽量 小 ， 就 完成 一 次 训练 。 


3.2 Chainer 





Chainer 由 日 本 PEN 公司 开发 维护 , 是 动态 框架 的 元 老 , 且 源 码 99% 为 Python 代码 ， 
对 Python 用 户 十 分 友好 ， 目 前 Chainer 最 新 版 本 为 5.0.0 beta3， 本 书 将 使 用 4.2.0 版 本 。 
Chainer 为 通用 深度 学 习 框 架 ， 其 中 ，ChainerCV: 更 注重 计算 机 视觉 方面 的 学 习 ( 最 
新 版 本 为 0.10.0) ， 另 外 还 有 ChainerRL* (强化 学 习 ) 和 ChainerMN* (分 步 式 学 习 ) 。 
Chainer 的 特点 是 使 用 动态 计算 图 ， 报 错 简单 易 懂 ， 使 用 标准 的 NumPy 语法 ， 可 利 
用 CuPy® 包 进行 GPU 加 速 计 算 ， 可 以 简单 地 将 CuPy (本 书 版 本 为 4.2.0) 理解 为 GPU 
版 本 的 NumPy。 其 安装 十 分 简单 ， 可 参见 相关 网 站 "， 本 书 的 环境 直接 使 用 以 下 综合 命 
令 进 行 安装 : 
pip install cupy-cuda91 chainer chaienrcv 
2 https://chainer.org/ 
https://github.com/chainer/chainercv 
https://github.com/chainer/chainerrl 
https://github.com/chainer/chainermn 


https://cupy.chainer.org/ 
https://docs.chainer.org/en/stable/install.html 
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Chainer 与 PyTorch 一 样 ， 可 以 直接 使 用 Python 的 条 件 和 循环 控制 语句 ， 进 行 调 试 
也 十 分 方便 ， 而 静态 框架 在 这 方面 相对 会 难 很 多 。 

Chainer 的 基本 概念 主要 有 Variables, Link, Function, link, function 等 ， 下 面 将 简 
要 介绍 。 


3.2.1 Variable 


Variable 类 似 PyTorch 中 的 Tensor， 可 以 向 Variable 传递 一 个 数组 。 

从 下 面 的 示例 〈 使 用 IPython) 可 以 看 出 : Variable 接收 一 个 数组 或 NumPy 数组 
作为 参数 ， 返 回 一 个 Variable 对 象 赋值 给 x，x 经 过 一 些 运算 后 (y—x72) 还 是 一 个 
Variable 对 象 。 

Variable 对 象 有 一 个 data 属性 ， 保 存 了 真实 的 数据 ， 同 时 也 有 grad 属性 ， 在 此 给 
grad 赋值 为 1 的 数组 ( 当 y 的 data 值 为 标量 时 ，Chainer 会 使 用 默认 值 [1]) ， 然 后 使 用 
y.bacward() 方法 进行 自动 微分 ，PyTorch 是 使 用 ybackward(grad) 这 样 的 操作 ， 但 两 种 
grad 意义 不 太一 样 ， 读 者 可 自行 检验 。 

另外 默认 情况 下 Chainer 会 释放 中 间 变 量 的 梯度 以 减轻 内 存 开销 ， 如 需要 保留 中 间 
变量 的 梯度 ， 可 使 用 y.backward(retain_grad=True) 操作 ， 参 见 下 面 的 示例 。 


In [39]: import numpy as np 
In [40]: import chainer 


In [41]: from chainer import Variable 


In [42]: x data = np.arange(6).reshape(2,3).astype('f') 
In [43]: x = Variable (x data) 

In [44]: x data 

Out[44]: 

arravibb0-7 Ler wells 

[3., 4., 5.]], dtype=float32) 


In 45]: ox 

Out[45]: 

variablo tilos Loe Zele 
[3., 4., 5.11) 





Ia [46]: 


Tn [Al] 
Out [47]: 


array ([[- 


[ 
In [48]: 
In [49]: 
In [SO 
Out [50]: 


array ([[ 
[ 





SO a i 


y-data 


Bon cbe Salle 
7., 14., 23.]], dtype=float32) 


y-grad = np-onesi(i(2773),, £4) 


y-backward () 


x.grad 


fo d NE TES 
6., 8., 10.1], dtype-float32) 


3.2.2 Link 5 Function 


ak 


m 
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Link 类 是 一 个 带 参数 的 对 象 ， 中 文 可 称 为 连接 ， 但 笔者 认为 直接 用 英文 更 好 ， 不 容 
易 混 乱 。 因 为 在 神经 网 络 中 主体 是 带 参数 的 函数 ， 训 练 神经 网 络 则 是 优化 这 些 参 数 ， 整 
个 神经 网 络 可 以 看 作 一 个 超级 大 且 复 杂 的 函数 。 所 以 可 以 使 用 Link 来 组 装 神经 网 络 ， 
Link 是 最 基本 的 对 象 ， 后 面 会 介绍 高 级 对 象 Chain。 
神经 网 络 中 最 常见 的 是 全 连接 层 ， 即 线性 操作 Linear， 实 质 上 是 作 .fx)=WX+5 的 线 
性 变换 ， 此 时 Wy x. b HARER, W b ABR, x 为 输入 。 
以 下 代码 中 ， 第 53 行 得 到 了 一 个 Link TRS 政和 4b 参数 为 1 的 属性 ， 数 据 类 型 
为 前 面 介绍 的 Variable， 可 以 用 data 去 查看 参数 对 应 的 矩阵 数值 。 丈 默认 会 随机 生成 ， 
5 默认 初始 化 为 0: 


Din) [5215 


In, [53] 


In p54]: 
Out [54]: 


import chainer.links as L 


f = L.Linear (3,4) 


f.W.data 


array ([[ 0.07844846, 0.18396685, 0.6575313 ], 
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[ 0.0285723 , -0.00904928, -0.77943236], 
[-0.02444948, 0.3321923 , -0.112284 ], 
[ 0.0860399 , -0.22148748, -0.00262394]], dtype=float32) 


In 55]: £2b-data 

Out [55]: array([0., 0., 0., 0.], dtype=float32) 

然后 使 用 NumPy 和 Variable 生成 一 个 Variable 变量 x， 经 过 f 变 换 ， 得 到 y， 即 
57~59 行 数值 。 

值得 注意 的 是 Chainer 所 有 的 操作 都 是 基于 Variable 的 ， 而 PyTorch 则 是 基于 Tensor 
来 操作 ， 初 学 者 在 这 里 容易 出 错 ， 比 如 直接 操作 NumPy 以 及 后 面 的 CuPy 是 会 报错 的 : 


In [57]: x = Variable (np.arange (6) .reshape (2,3).astype('f')) 
Jo [fet y f (x) 


In [59]: y-data 

Out [59]: 

array (NL 49902957) 175619142757 5205107624317 507226435997 
4.258869 , -3.847642 , 0.69400084, -0.6409499 ]], 
dtype=float32) 


当然 对 LLinear(3,4) 可 以 直接 简写 为 LLinear(4)， 数 值 4 为 需要 输出 的 维度 ， 
Chainer 会 自动 匹配 输入 形状 , 比如 x 维度 为 (2,3), 第 60~62 行 展示 了 其 自动 匹配 的 过 程 : 


In [60]: ff = L.Linear(3) 
Tn fells yy ff (x) 


In [62]: yy.data 
Out[62]: 
Array puo u62T939 2 052:]145967 T! 28g]03953 91» 
[ 2.9122443 , 2.2254474 , -3.2871754 ]], dtype=float32) 


在 Chainer 中 梯度 是 累计 的 ， 所 以 训练 神经 网 络 时 要 注意 梯度 清 零 ， 使 用 Link. 
cleargrads() 方法 。 


In [119]: yy.backward() 


in: [120]: Ff. W- grad 


48 


第 3 章 常见 深度 学 习 框 架 


Out [120]: 
array([[nan, nan, nan], 
[nan, nan, nan], 


[nan, nan, nan]], dtype-float32) 


紧 接 上 面 的 操作 ， 如 果 不 进行 cleargrads， 直 接 使 用 backward， 那 么 得 到 的 梯度 将 
是 nan， 即 Nota Number， 通 常 认为 是 无 穷 大 。 

执行 了 121 行 之 后 再 操作 backward 就 能 得 到 正确 的 梯度 了 ， 如 果 再 执行 一 次 
backward 会 怎样 呢 ? 请 看 第 124-125 行 ， 发 现 梯度 果然 变 为 两 倍 了 : 


In [121]: ff.cleargrads () 
In [122]: yy.backward() 


In [123]: ff.W.grad 
Out [123]: 
EE Tele 
< 
3., 5., 7.]], dtype=float32) 


In [124]: yy.backward() 


In [125]: ff.W.grad 
Out[125]- 
array iLE Ge 10: dsl 
62:107 5345117 
6., 10., 14.]], dtype=float32) 


然后 再 执行 梯度 清 零 的 操作 ， 再 用 backward, RE VE T, BIL 126-128 行 。 
所 以 如 果 使 用 Chainer 自行 编写 神经 网 络 ， 请 注意 cleargrads 操作 的 正确 使 用 方法 : 





In [126]: ff.cleargrads() 
In [127]: yy.backward() 


In [128]: £ff.W.grad 
Out [128]: 
array([[3., 5., 7.], 
[3., 5., 7.], 
[Sia 7.11, dtype=float32) 
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Function 其 实 与 Link 操作 效果 类 似 ， 差 别 在 于 Function 不 带 参 数 ，Link 带 参数 ， 
此 处 的 参数 是 指 神经 网 络 训练 过 程 中 需要 修改 更 新 的 数据 。 


3.2.3 Chain 


关于 模型 的 创建 ， 这 里 直接 介绍 复 用 性 更 好 的 类 方法 ， 支 持 CPU/GPU 迁移 ， 健 壮 
性 更 好 ， 这 些 都 在 Chainer 中 的 Chain 得 到 很 好 的 支持 ， 是 比 Link 更 加 高 级 的 抽象 。 

此 处 使 用 了 两 个 全 连接 层 ， 两 层 之 间 加 了 一 个 RELU 激活 函数 ， 即 一 种 chainer. 
functions 对 象 。 


from chainer import Chain, ChainList 
import chainer.links as L 


import chainer.functions as F 


class MyChain (Chain): 
def init (self): 
super(MyChain, self). init () 
with self.init scope(): 
self.11 = L.Linear(4, 3) 
self.12 = L.Linear(3, 2) 


der ca le sebt xy 
h = F.relu(self.11(x)) 
return self.12(h) 


另外 也 可 以 使 用 ChainList， 这 样 在 ”init ”函数 直接 将 Link 以 参数 形式 传 入 ， 
call ”函数 调用 使 用 selfli] 表示 第 i 个 Link 操作 。 


class MyChain2 (ChainList): 
def _ init (self): 
super(MyChain2, self). init ( 
L.Linear(4, 3), 
Lhrnear(3, 2); 


def _ call (self, x): 
h = F.relu(self[0](x)) 
return self[1] (h) 


3.2.4 optimizers 


上 一 小 节 已 经 定义 好 了 一 个 简单 的 神经 网 络 类 , 实际 使 用 的 时 候 只 需要 将 其 实例 化 ， 
然后 再 选择 一 种 优化 算法 即 可 ， 优 化 算法 用 来 最 小 化 损失 函数 ， 此 处 选用 随机 梯度 下 降 
法 optimizer.SGD()。 

优化 算法 setup 方法 的 意义 是 让 优化 算法 关注 所 传 入 Link 的 参数 ， 此 处 传 入 的 是 
model。 可 以 将 model 理解 为 由 很 多 小 的 基础 Link 组 成 的 一 个 复杂 的 大 Link， 可 通俗 理 
解 为 用 很 多 小 积木 模型 搭 成 大 的 积木 模型 ， 实 质 上 最 后 还 是 积木 模型 。 

另外 优化 算法 还 有 钧 子 函 数 (hook functions) ， 它 会 在 梯度 计算 完毕 后 , 在 Link (或 
神经 网 络 模型 ) 中 的 参数 更 新 前 执行 ， 比 如 此 时 可 以 使 用 add hook 方法 加 一 个 权重 衰 
减 项 chainer.optimizer hooks.WeightDecay(0.0005)。 

from chainer import optimizers 

model = MyChain() 


opt = optimizer.SGD() .setup (model) 
opt .add_hook (chainer.optimizer hooks.WeightDecay (0.0005) ) 


3.2.5 损失 函数 


接着 便 是 损失 函数 的 选择 或 定义 ，Chainer 定义 了 很 多 常用 的 损失 函数 ， 也 支持 自 定 
义 。 定 义 好 损失 函数 后 就 可 以 训练 并 使 用 opt 优化 算法 进行 参数 更 新 ， 有 以 下 两 种 用 法 : 

CD 梯度 清 零 后 调用 loss.backward()， 再 使 用 opt update), 

(2) 将 损失 函数 传 入 optupdate 方法 中 ， 但 需要 指定 损失 函数 ， 以 及 损失 函数 所 接 
受 的 参数 ， 示 例 中 自 定义 了 loss_fun， 它 会 计算 两 个 输入 经 过 神经 网 络 映 射 后 结果 的 欧 
式 距离 。 


以 下 是 简单 示例 : 


x = np.random.uniform(-1, 1, (2, 4)).astype('f') 


model.cleargrads()#clear gradient 
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loss = F.sum (model (chainer.Variable (x))) 
loss.backward() # calc gradient 
opt.update () # updata weight 


def loss fun(xl, x2): 
return F.sum(F.square (model (x1) -model (x2))) 


inputl = np.random.uniform(-1, 1, (2, 4)).astype('f') 
input2 = np.random.uniform(-1, 1, (2, 4)).astype('f') 
opt.update(loss fun, Variable(inputl), Variable (input2)) 


3.2.6 GPU 的 使 用 


现在 介绍 一 下 Chainer 中 GPU 的 使 用 ，Chainer 使 用 CuPy 进行 GPU 矩阵 计算 。 
CuPy 实现 了 NumPy 的 部 分 功能 并 且 API 与 NumPy 兼容 ， 这 样 就 更 加 容易 实现 兼容 
CPU 和 GPU 的 代码 。 

注意 chainerbackends.cuda 会 导入 CuPy 中 很 多 重要 的 功能 ， 在 Chainer 中 使 CuPy 
可 以 引用 cuda.cupy, chainer.backends.cuda 在 没有 安装 CUDA 时 也 可 以 使 用 ， 当 然 也 可 
以 直接 使 用 CuPy《〈 但 需要 安装 CUDA) 。 

cupy.ndarray 与 numpy.ndarray 类 似 ， 前 者 在 GPU 上 计算 ， 后 者 在 CPU 上 计算 。 

可 以 使 用 cupy.cuda.Device 或 cuda.Device 指定 GPU ID 号 〈 注 意 是 整数 ) ， 指 定 
在 某 块 GPU 上 生成 数据 ;也 可 以 使 用 cuda.to gpu 方法 ， 传 入 预先 生成 NumPy 数组 和 
GPUID; 从 GPU 转换 到 CPU 设备 则 可 用 cudato_cpu， 简 单 易 懂 ， 十 分 友好 。 部 分 示例 
代码 如 下 : 

import cupy as cp 


import numpy as np 


from chainer.backends import cuda 


with cp.cuda.Device(1): # GPU card 1 
x on gpül = cp-array (fl; 2, 3, 4; 51) 


with cuda.Device (2): # GPU card 2 
x on gpu2 = cuda.cupy.array([1, 2, 3, 4, 5]) 


XxX cpu 三 mp-ones((5 4, 3}, dtype="£") 
x gpu = cuda.to gpu(x cpu, device=1) 


y cpu = cuda.to cpu(x gpu) 


另外 ，Chainer 还 提供 了 一 些 方便 快捷 选择 硬件 设备 的 方法 : cudaget device Dom 
id 和 cuda.get device from array. 

cuda.get device from id 接收 一 个 整数 或 None 参数 ， 当 接收 None 时 ， 返 回 一 个 
dummy 设备 对 象 ， 否 则 返回 对 应 GPU 设备 对 象 。 

cuda.get device from array 接收 CuPy 或 NumPy 数组 ， 当 接收 NumPy 数组 时 ， 返 
回 dummy 设备 对 象 ， 当 接收 CuPy 数组 时 返回 对 应 GPU 设备 对 象 。 

可 能 读者 会 疑惑 dummy 设备 对 象 是 什么 ， 本 书 观 点 ， 从 NumPy 和 CuPy 之 间 的 关 
系 来 看 ， 可 以 简单 地 将 其 视 为 CPU 设备 对 象 : 从 下 面 的 代码 可 以 看 到 y_gpu 会 自动 产 
生 在 x_gpu 的 设备 上 。 这 样 就 能 写 出 CPU/GPU 通用 性 强 的 代码 ， 如 下 面 的 数值 稳定 型 
softplus 函数 。 


cuda.get device from id(1).use() 


x gpu = cp.empty((4, 3), dtype=cp.float32) 


with cuda.get device from id(1): 


x gpu = cp.empty((4, 3), dtype=cp.float32) 


with cuda.get device from array(x gpu): 


y_gpu = x_gpu + 1 


# Stable implementation of log(1 + exp(x)) 
def softplus (x): 
xp = cuda.get array module (x) 


return xp.maximum(0, x) + xp.loglp(xp.exp(-abs (x) ) ) 


前 面 简 述 了 数组 在 CPU/GPU 设备 上 的 产生 ， 那 么 关于 神经 网 络 模型 如 何在 CPU/ 
GPU 切换 呢 ? 

其 实 也 非常 简单 ， 只 需要 将 Link 和 输入 变量 转移 到 对 应 的 GPU 即 可 ， 可 使 用 to_ 
gpu(gpuid) 方法 ， 其 实 gpuid 为 整数 ， 意 为 第 几 块 GPU， 注 意 第 一 块 GPU HH ID WO, 
比如 实例 化 了 一 个 网 络 模型 为 model, 可 以 使 用 modelto_gpu(1) 让 其 运行 在 第 二 块 GPU E. 
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3.2.7 模型 的 保存 与 加 载 


假设 现在 已 经 训练 好 了 一 个 神经 网 络 模型 ， 后 期 会 面临 部 署 的 问题 ， 如 果 每 次 都 是 
部 署 的 时 候 临时 训练 模型 ， 从 时 间 和 效益 来 着 ， 是 不 可 取 的 ， 那 么 怎么 保存 与 加 载 这 个 
模型 呢 ? 

此 时 便 引 入 了 Serializer 模块 ， 用 于 保存 和 加 载 模型 ， 也 可 以 保存 优化 算法 的 状态 ， 
以 下 是 简单 示例 GER: 加 载 时 ， 需 要 model 的 网 络 结构 已 经 定义 。) : 


from chainer import serializers 
serializers.save npz('my.model', model) 


serializers.load npz('my.model', model) 


serializers.save npz('my.state', opt) 


serializers.load npz('my.state', opt) 


3.2.8 FashionMnist 图 像 分 类 示例 


下 面 介绍 一 个 完整 的 图 像 分 类 的 例子 ， 其 主要 目的 是 运用 神经 网 络 将 一 张 图 片 分 为 
某 一 类 ， 比 如 猫 、 狗 、 人 、 桌 子 、 电 脑 等， 这 些 类 别 都 是 事先 定义 好 的 。 这 里 事先 准备 
多 张 图 片 ， 每 张 图 片 给 予 一 个 标签 ， 表示 这 张 图 片 属于 哪 一 类 ， 这 些 图 片 与 其 对 应 的 标 
签 就 组 成 了 所 谓 的 数据 集 dataset. 

用 这 个 dataset 来 训练 神经 网 络 ， 当 对 其 效果 满意 时 ， 就 可 以 应 用 到 新 的 图 片 ， 去 测 
试 新 的 图 片 属于 哪 一 类 。 

在 此 使 用 FashionMnist 数据 集 *， 它 包含 60 000 张 训练 图 片 和 10 000 张 测试 图 片 ， 
每 张 图 片 是 像素 为 28X28 的 灰 度 图 ， 有 10 个 种 类 (T-shirt, Trouser, Pullover, Dress, 
Coat, Sandal, Shirt, Sneaker, Bag, Ankle boot) ， 分 别 用 数字 0-9 表示 类 别 。 

对 于 数据 集 ， 可 以 使 用 官方 的 函数 获取 到 ， 也 可 以 自行 下 载 ， 此 处 直接 调用 chainer 
中 datasets.get fashion mnist()， 得 到 一 个 训练 集 和 一 个 测试 集 ; 然后 使 用 Seriallterator 
制作 迭代 器 ， 它 会 接收 一 个 batchsize 参数 ， 表 示 每 次 取 多 少 个 样本 送 入 神经 网 络 ， 此 处 
一 个 样本 就 是 一 张 图 片 和 它 所 对 应 的 标签 。 

然后 准备 网 络 模型 ， 并 将 其 传 入 工 .Classifier 分 类 器 ， 再 转移 模型 到 GPU E; 然后 
训练 并 测试 模型 并 打印 结果 。 


8 https://github.com/zalandoresearch/fashion-mnist 


以 下 代码 首先 使 用 了 比较 原始 的 方法 来 说 明 ， 但 流程 清晰 ， 理 解 了 这 一 块 以 后 ， 再 


使 用 框架 自 带 的 工具 就 会 更 加 得 心 应 手 。 


# fashion mnist.py 


"m 
2 
3 
4 


import chainer 


from chainer import configuration 


from chainer.dataset import convert 
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from chainer.iterators import MultiprocessIterator, 


Seriallterator 


20 


import chainer.links as L 


import chainer.functions as F 


from chainer import training 


from chainer.training import extensions 


from chainer import serializers 


# Network definition 


class MLP(chainer.Chain): 


def _ init (sert; niundts n ont): 


super (MLP, self). init () 


with self.init scope(): 


inferred 


21 


units 


2 


units 


out 


23 


24 
25 
26 
27 
28 


# the size of the inputs 


self.11 = L.Linear (None, 
self.12 = L.Linear (None, 
self.13 = L.Linear (None, 


CG jail (seve. SNS 


hi 
h2 


F.relu(self.11(x)) 
F.relu(self.12(h1)) 


return self.13(h2) 


to each 


n units) 


n units) 


n out) 


layer will be 


GE EE 


# n units ~> n. 


# n_units => n. 
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29 

30 batchsize = 100 

31 epochs = 20 # Number of sweeps over the dataset to train 
32 gpuid = 1 


33 outdir = 'result' 
34 unit = 1000 
35 


36 print (f'# GPU: (gpuid)') 
ST el E unit: Lunit)') 

38 print(f'4 Minibatch-size: {batchsize}') 
39 print(f'# epoch: {epochs}') 

40 print('") 

41 


第 1-11 行 是 导 包 的 过 程 ， 第 15~28 行 定义 了 神经 网 络 ， 目 前 只 使 用 了 全 连接 层 ， 
第 30-34 行 定 义 了 一 些 常 量 ， 如 批 大 小 batchsize，epochs 表示 对 训练 集 重复 训练 多 少 次 ， 
unit 即 网 络 中 的 n_units， 表 示 隐 藏 层 的 神经 元 数量 。 


42 4 Set up a neural network to train 
43 model - L.Classifier(MLP(unit, 10)) 
44 if gpuid >= 0: 


45 # Make a speciied GPU current 

46 chainer.backends.cuda.get device from id(gpuid).use() 
47 model.to gpu() # Copy the model to the GPU 

48 


49 # Setup an optimizer 

50 optimizer = chainer.optimizers.Adam() 

51 optimizer.setup (model) 

52 

53 # Load the Fashion MNIST dataset 

54 train, test = chainer.datasets.get fashion mnist() 

55 train count, test count- len(train), len(test) 

56 

57 train iter = SerialIterator(train, batchsize) 

58 test iter = Seriallterator(test, batchsize, repeat-False, 
shuffle-False) 

59 


56 


60 sum accuracy = 0 
61 sum loss = 0 
62 


第 43-47 行为 实例 化 模型 到 第 一 块 GPU， 注 意 第 43 行使 用 了 L.Classifier， 它 接收 
一 个 参数 net-chain 然后 返回 一 个 新 的 chain， 并 且 将 参数 net-chain 作为 返回 对 象 的 一 个 
predictor 属性 。 第 50-51 行 选择 了 优化 算法 并 将 模型 与 优化 算法 关联 起 来 。 第 54-58 行 
获取 训练 集 和 测试 集 ， 并 制作 了 对 应 的 迭代 器 ， 其 中 训练 集 默认 repeat=True 表示 无 限 循 
环 采 样 训 练 集 ，shufe=True 表示 会 随机 打 乱 样本 顺序 ， 但 对 于 测试 集 这 些 操 作 不 需要 ， 
故 都 设 为 False。 

第 63 行 表 示 训 练 的 epoch 小 于 指定 epochs 时 , 会 一 直 进 行内 部 训练 和 测试 的 循环 。 
第 64 行 表示 取 一 个 batchsize 大 小 的 样本 ， 此 处 使 用 了 和 迭代 器 的 next 方法 ， 第 65 行将 
所 取出 的 批 样本 进行 琶 加 操作 ， 组 成 图 像 矩 阵 〈 张 量 ) x 和 类 别 矩 阵 t, 第 66-67 行将 x 
和 1 封装 了 Chainer 的 Variable 对 象 。 注 意 : Chainer 的 所 有 操作 都 是 基于 Variable 的 。 

第 68 行 更 新 神经 网 络 参 数 ， 注 意 此 处 的 model 隐 含 了 损失 函数 ， 具 体 可 查看 
L.Classifier 的 实现 细节 与 官方 网 站 介绍 ”，， 这 一 步 的 主要 操作 有 : 将 x 送 入 神经 网 络 mlp 
中 ， 然 后 得 到 结果 y， 再 将 y 和 +t 用工.Classifier 中 的 损失 函数 lossfun〈 实 质 上 是 分 类 的 
F.softmax cross entropy 函数 ) 进行 计算 并 微分 ， 最 后 利用 优化 算法 更 新 网 络 中 的 参数 。 

第 69~70 行进 行 了 损失 和 准确 度 的 累加 计算 ， 此 处 乘 上 批 样本 总 数 len(t.data) 的 原 
因 是 ， 损 失 和 准确 度 是 进行 了 平均 的 ， 想 在 训练 完 一 轮 (epoch) 后 查看 总 的 平均 效果 ， 
故 有 乘法 与 累加 操作 。 

第 72~74 行 表 示 如 果 神 经 网 络 在 整个 训练 数据 集 完 成 了 一 个 epoch 训练 ， 就 打印 出 
平均 每 个 样本 的 损失 和 准确 度 。 

第 76-92 行 表示 训练 完 一 轮 后 在 测试 集 上 进行 测试 ，sum_ loss 与 sum accuracy 重新 
置 零 给 测试 集 用 。 测 试 的 时 候 不 需要 微分 与 参数 更 新 ， 故 关闭 参数 更 新 与 自动 微分 操作 

〈 可 选 ， 有 助 减少 不 必要 的 计算 ) ， 分 别 使 用 configuration.using_config('train', False) 与 
chainer.using_config('enable_backprop', False)， 统 计 完 测试 集 上 的 损失 与 准确 度 后 输出 其 
平均 值 。 注 意 第 91 行使 用 了 reset 操 作 , 目的 是 将 所 有 关于 测试 集 迭 代 器 的 状态 全 部 复原 ， 
就 好 像 从 来 没有 操作 过 这 个 迭代 器 一 样 ， 可 以 查看 源码 ”。 第 93~94 行将 损失 和 准确 度 
重新 置 零 供 训练 集 使 用 。 


9 https://docs.chainer.org/en/latest/reference/generated/chainer.links.Classifier.html#chainer.links.Classifier 
10 https://github.com/chainer/chainer/blob/master/chainer/iterators/serial iterator.py£L148:14 
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63 while train iter.epoch « epochs: 


64 
65 
66 
67 
68 
69 
70 
AE 
T2 
73 
74 


batch = train iter.next() 


x array, t array = convert.concat examples (batch, gpuid) 


x= 


t= 


chainer.Variable(x array) 


chainer.Variable(t array) 


optimizer.update (model, x, t) 


sum loss += float (model.loss.data) * len(t.data) 


sum accuracy += float (model.accuracy.data) * len(t.data) 


if train iter.is new epoch: 


print(f'epoch: (train iter.epoch]"') 


print(f'train mean loss: (sum loss / train count], 


accuracy: (sum accuracy / train count]') 


75 
76 
vH) 
78 
79 
80 
overhead. 
81 
82 
83 
gpuid) 
84 
85 
86 
87 
88 
89 
90 
gi 
92 
accuracy: 
93 
94 
95 


# evaluation 

sum_accuracy = 0 

sum loss - 0 

# Enable evaluation mode. 

with configuration.using config('train', False): 


# This is optional but can reduce computational 


with chainer.using config('enable backprop', False): 


for batch in test iter: 


x, t = convert.concat examples (batch, 


x 
15 


chainer.Variable (x) 
chainer.Variable(t) 


loss - model(x, t) 


sum loss += float(loss.data) * len(t.data) 


sum accuracy += (float (model.accuracy.data) * 


len(t.data)) 


test iter- -reset() 


print (f'test mean loss: {sum loss / test count], 


[sum accuracy / test count]') 


sum accuracy = 0 


sum loss = 0 


96 # Save the model and the optimizer 
97 print('save the model') 


98 serializers.save npz('[)/mlp.model'.format(outdir), model) 


如 果 第 72 行 的 条 件 不 满足 ， 即 在 训练 集 上 一 轮 还 未 训练 完毕 ， 那 么 将 直接 进入 
while 的 下 个 循环 ， 即 再 取 一 个 batchsize 大 小 的 样本 集 进行 训练 ， 不 断 重 复 这 些 过 程 ， 
直到 总 的 训练 轮 数 达到 指定 的 epochs， 这 时 所 有 的 训练 都 已 完成 。 此 时 便 可 保存 模型 ， 
以 供 后 续 使 用 ， 其 使 用 方法 就 是 先 定义 一 个 同样 的 神经 网 络 ， 然 后 将 模型 加 载 到 内 存 中 
〈 根 据 实 际 情况 转移 至 GPU) ， 然 后 进行 预测 ， 预 测 时 使 用 predict 方法 ， 然 后 做 一 个 
softmax， 其 中 概率 最 大 的 就 是 神经 网 络 认 为 最 可 能 的 类 的 数字 标签 ， 最 后 作 标 签 、 类 别 
和 映射 ， 即 完成 预测 。 另 外 注意 保证 这 个 Python 文件 同 级 目录 下 outdir 存在 ， 否 则 保存 
模型 时 会 报错 。 

以 下 是 部 分 屏幕 输出 结果 : 


#output, "Python fashion mnist.py"' 


$ CPU: I 

# unit: 1000 

# Minibatch-size: 100 
# epoch: 20 


epoch: 1 

train mean loss: 0.46489123719433945, accuracy: 0.8318833323878546 
test mean loss: 0.4039411845803261, accuracy: 0.8518000000715256 

epoch: 2 

train mean loss: 0.34661896658440433, accuracy: 0.8726999990145365 
test mean loss: 0.3580430018901825, accuracy: 0.8689999991655349 

epoch: 20 

train mean loss: 0.13344544799687963, accuracy: 0.9479333351055781 
test mean loss: 0.38144012935459615, accuracy: 0.898400001525879 


Save the model 


3.2.9 Trainer 


现在 再 介绍 一 下 Chainer 框架 对 训练 和 测试 进行 统一 管理 的 方式 。 


59 


深度 学 习 实践 : 计算 机 视觉 


所 有 的 训练 与 测试 都 可 以 在 总 管 Trainer 的 指挥 下 统一 进行 ， 二 级 主管 为 Updater， 
Trainer 还 管理 一 些 直属 机 构 ， 叫 做 Extension. 

在 Updater 的 管理 下 有 两 个 组 长 Iterator 和 Optimizer. Iterator 关注 的 是 数据 以 何 种 
形式 取出 来 ， 并 组 成 小 批 mini-batch; Optmizer 则 关注 使 用 数据 来 计算 损失 并 更 新 模型 
参数 的 训练 过 程 ， 最 终 由 Updater 来 协调 数据 与 模型 参数 之 间 的 沟通 问题 。 

Trainer 接 收 下 级 Updater 的 报告 , 然后 有 权 随 时 终止 程序 , 即使 用 一 个 元 组 , 如 (max_ 
epochs, 'epoch' ) 来 代表 最 大 循环 轮 数 ， 另 外 Trainer 还 指定 结果 存放 的 目录 ， 即 out 关 





键 字 参 数 。 




















Extension 这 类 机 构 主 要 负责 做 一 些 测试 、 统 计 信息 、 作 图 、 保 存 信 息 或 模型 等 类 
型 的 工作 ， 形 象 的 解释 为 主管 可 以 让 他 的 直接 下 属 (Extension) 来 检验 测试 二 级 部 门 
Updater 的 工作 是 否 到 位 。 整 个 抽象 结构 如 图 3-2 所 示 。 
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图 3-2 Chainer 结构 


具体 内 容 以 下 面 的 示例 来 作 解释 : 


1 import chainer 


2 from chainer import configuration 


3 from chainer.dataset import convert 


4 from chainer.iterators import Seriallterator, 


MultiprocessIterator 
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to each layer will be 
p units) Fn in E m 
n units) £ n units ~> n. 


n out) Aoo upita => nM 


5 
6 import chainer.links as L 
7 import chainer.functions as F 
8 
9 from chainer import training 
0 from chainer.training import extensions 
1 from chainer import serializers 
2 
3 
4 4 Network definition 
5 class MLP(chainer.Chain): 
6 
7 def init (self, n units, n out): 
8 super (MLP, self). init _ () 
9 with self.init scope(): 
20 # the size of the inputs 
inferred 
DUE self.11 = L.Linear (None, 
units 
22 self.12 = L.Linear (None, 
units 
23 self.13 = L.Linear (None, 
out 
24 
25 GE E xy 
26 h1 = F.relu(self.11(x)) 
27 h2 = F.relu(self.12(h1)) 
28 return self.13(h2) 
29 
30 


31 batchsize = 100 
32 epoch = 20 
33 gpuid = 1 


34 outdir = 'result' 
35 unit = 1000 
36 


37 # Set up a neural network to train 
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38 4 Classifier reports softmax cross entropy loss and accuracy at 
every 

39 4 iteration, which will be used by the PrintReport extension 
below. 

40 model = L.Classifier (MLP(unit, 10)) 

41 if gpuid >= 0: 


42 # Make a specified GPU current 

43 chainer.backends.cuda.get device from id(gpuid).use() 
44 model.to gpu() # Copy the model to the GPU 

45 


46 4 Setup an optimizer 

47 optimizer = chainer.optimizers.Adam() 

48 optimizer.setup (model) 

49 

50 # Load the Fashion-MNIST dataset 

51 train, test = chainer.datasets.get fashion mnist() 

52 

53 train_iter = chainer.iterators.SerialIterator (train, batchsize) 

54 test_iter = chainer.iterators.SerialIterator (test, batchsize, 

55 

56 # Set up a trainer 

57 updater = training.updaters.StandardUpdater ( 

58 train_iter, optimizer, device=gpuid) 

59 trainer = training.Trainer(updater, (epoch, 'epoch'), 
out=outdir) 

60 

61 # Evaluate the model with the test dataset for each epoch 

62 trainer.extend(extensions.Evaluator(test iter, model, 
device-gpuid)) 

63 

64 # Dump a computational graph from 'loss' variable at the first 
iteration 

65 4 The "main " refers to the target link of the "main " 
optimizer. 

66 trainer.extend(extensions.dump graph ('main/1loss')) 

67 


68 # Write a log of evaluation statistics for each epoch 
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69 trainer.extend (extensions .LogReport () ) 
70 
71 4 Save two plot images to the result dir 


72 if extensions.PlotReport.available(): 


73 trainer.extend( 

74 extensions.PlotReport(['main/loss', 'validation/main/ 
loss'], 

TS 'epoch', file name-'loss.png')) 

76 trainer.extend( 

ATA extensions.PlotReport ( 

78 ['main/accuracy', 'validation/main/accuracy'], 

79 'epoch', file name-'accuracy.png')) 

80 


81 4 Print selected entries of the log to stdout 

82 4 Here "main " refers to the target link of the "main " 
optimizer again, and 

83 4 "validation " refers to the default name of the Evaluator 
extension. 

84 4 Entries other than 'epoch' are reported by the Classifier 
link, called by 

85 # either the updater or the evaluator. 


86 trainer.extend (extensions. PrintReport ( 


87 ['epoch', 'main/loss', 'validation/main/loss', 

88 'main/accuracy', 'validation/main/accuracy', 'elapsed ` 
time'])) 

89 


90 # Print a progress bar to stdout 

91 trainer.extend(extensions.ProgressBar()) 
92 

93 # Run the training 


94 trainer.run() 


第 1-54 行 与 上 面 的 例子 一 样 ， 第 57 行使 用 了 一 个 更 新 模块 updater， 接 收 了 一 个 训 
练 集 的 迭代 器 、 一 个 优化 算法 对 象 和 GPU 索引 整数 作为 参数 。 第 59 行将 updater 与 最 
大 循环 轮 数 ， 以 及 输出 目录 汇总 给 主管 Trainer 对 象 。 

第 62 行 Trainer 使 用 直属 机 构 Extension 添加 测试 ， 这 相当 于 前 一 个 文件 中 的 第 
79-89 行 ， 这 里 接收 测试 集 迭 代 器 、 模 型 和 GPU 索引 整数 作为 参数 。 第 66 行 以 main/ 
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loss 为 基础 构建 计算 图 ， 并 保存 到 本 地 。 第 69 行为 保存 统计 信息 到 本 地 。 第 72~79 行 对 
loss 和 accuracy 的 统计 信息 进行 作 图 并 保存 到 本 地 。 第 86-88 行为 在 屏幕 输出 信息 。 第 
91 行使 用 进度 条 。 
第 94 行 表示 主管 Trainer 命令 开始 执行 训练 、 测 试 和 统计 各 类 信息 的 操作 。 
屏幕 输出 如 图 3-3 所 示 ， 可 以 看 到 训练 集 和 测试 集 的 损失 都 在 下 降 ， 而 准确 度 都 在 
上 升 , 但 这 样 观察 起 来 还 不 够 直接 , 此 时 就 可 以 去 outdir 目录 查看 loss 和 accuracy 图 像 了 。 














图 3-3 Chainer Trainer 训练 输出 


可 以 从 图 3-4 中 观察 到 : 5 个 epoch 后 测试 集 的 loss 并 没有 下 降 得 特别 快 ， 在 12 个 
epoch 后 还 出 现 了 上 升 ， 而 训练 集 的 loss 全 程 一 直下 降 ， 而 对 于 accuracy， 训 练 集 上 一 
直上 升 ， 而 测试 集 上 在 6 个 epoch 后 ， 便 开始 抖动 。 





— main/loss 
045 一 validation/main/loss 
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&| 3-4 训练 集 与 测试 的 loss 和 accuracy 曲线 
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一 main/accuracy 
一 validation/main/accuracy 
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图 3-4 训练 集 与 测试 的 loss 和 accuracy 曲线 (HE) 


期 望 中 的 结果 是 这 些 曲线 变化 趋势 尽量 一 致 ， 那 么 出 现 这 种 现象 的 原因 是 什么 呢 ? 

首先 ， 这 里 使 用 的 是 MLP， 即 多 层 全 连接 网 络 ， 它 的 表达 能 力 其 实 相对 较 多 ， 如 
果 采 用 更 强 的 结构 如 卷 积 ， 那 么 效果 应 该 会 有 所 提升 ， 其 次 训练 与 测试 loss 间隔 越 来 
越 大 说 明 可 能 出 现 了 过 拟 合 ， 网 络 学 习 到 了 过 多 关于 训练 集 的 信息 ， 但 实际 上 这 些 信息 
没 多 大 用 处 ， 因 为 它 在 测试 集 上 表现 得 越 来 越 差 ， 此 时 可 以 采用 Batch Normalization. 
Dropout, Weight Dean £k Early Stopping 等 操作 。 

这 里 有 读者 可 能 会 觉得 奇怪 : 前 面 说 模型 表达 能 力 不 强 后 面 又 说 过 拟 合 ， 是 不 是 矛 
盾 呢 ? 

其 实 不 然 ， 模 型 的 定义 决定 了 网 络 的 搜索 空间 ， 比 如 让 一 个 小 孩子 在 一 个 房间 和 里 
找 糖 吃 ， 房 间 里 A、B 两 处 都 有 糖 ，A 处 数量 少 而 B 处 数量 多 。 

过 拟 合 指 的 情况 是 在 此 房间 X 中 ， 小 孩子 运用 了 所 有 的 训练 信息 ， 发 现 B 处 糖 更 
多 一 点 ， 小 孩 很 多 次 都 愿意 去 B 处 找 糖 吃 ， 而 没有 能 力 发 现 A 处 有 更 多 糖 这 个 事实 ， 即 
泛 化 能 力 差 。 如 果 房 间 X 旁边 还 有 房间 Y 和 房间 Z， 可 供 小 孩 选择 ， 他 的 搜索 空间 就 更 
大 了 ， 如 果 表 现 不 错 ， 他 就 可 以 在 更 多 的 地 方 找到 糖 吃 ， 当 然 如 果 表 现 不 佳 〈 过 拟 合 ) ， 
可 能 他 还 一 直 在 B 处 找 糖 吃 。 

所 以 模型 的 定义 可 以 说 决定 了 模型 搜索 空间 的 上 限 ， 模 型 只 能 在 这 个 限制 里 去 寻找 
最 优 的 方案 ; 而 过 拟 合 则 是 在 这 个 限制 下 ， 模 型 学 到 了 很 多 不 应 该 学 到 的 东西 ， 可 以 简 
称 为 噪音 。 另 一 个 形象 理解 过 拟 合 的 生动 的 例子 就 是 题 海 战术 ， 变 着 花样 背 题 ， 若 考试 
的 时 候 不 会 举一反三 ， 遇 到 没 练习 过 的 题 仍 会 束手无策 。 
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Chainer 中 也 有 关于 多 GPU 训练 的 方法 ， 主 要 利用 模型 并 行 或 数据 并 行 来 训练 ， 其 
中 数据 并 行 操作 相对 较 简 单 ， 使 用 chainertrainingupdaters.ParallelUpdater 类 就 可 以 ， 具 
体 可 参见 官方 网 站 。ChainerCV2 是 Chainer 专门 针对 计算 机 视觉 开发 的 库 ， 官 方 已 经 提供 
目标 检测 算法 YOLO, SSD 和 Faster RCNN 以 及 图 像 分 割 算 法 SegNet、PSPNet 和 FCIS. 





3.3 TensorFlow 与 Keras 


3.3.1 TensorFlow 


TensorFlow 由 Google 开源 ， 目 前 最 新 版 本 为 TensorFlow 1.9.0。 其 安装 过 程 过 程 可 
参见 官方 网 站 了。 
本 书 主要 是 在 Conda 环境 中 ， 直 接 使 用 conda install tensorflow-gpu 即 可 。 


有 时 Conda 和 pip 两 种 安装 方式 的 版 本 会 不 一 致 ， 一 般 pip 版 本 更 新 更 快 
一 点 ， 此 时 由 于 版 本 不 同 ， 所 以 会 采用 两 次 安装 的 方法 ， 以 确保 完整 地 安装 各 种 依赖， 
这 是 笔者 的 个 人 经 验 ， 不 一 定 完全 对 ， 首 先 使 用 conda install tensorflow-gpu 安装 1.7.0 版 


本 (最 新 版 本 ) ， 然 后 再 安装 pip install tensorflow-gpu 1.8.0 版 本 〈Conda 中 最 新 版 本 为 
pip 1.8.0) 。 为 什么 这 样 操作 呢 ? 因为 以 前 只 安装 pip 1.4 版 本 的 时 候 ， 出 现 了 依赖 安装 
不 全 的 问题 ， 当 时 是 Conda 1.3 版 本 ， 使 用 conda 安装 之 后 再 用 pip 安装 就 没 问题 了 。 





另外 TensorFlow 现在 推出 了 Eager， 它 可 以 使 用 动态 图 的 概念 “。 

如 果 出 现 cuda 报错 ， 一 般 是 由 于 cuda 版 本 与 TensorFlow 版 本 不 兼容 导致 ， 此 时 要 
么 选择 升级 cuda， 要 么 对 TensorFlow 降级 ， 请 自行 搜索 解决 方案 。 

TensorFlow 是 一 个 很 大 的 框架 ， 功 能 丰富 ， 但 也 正 因 如 此 ， 初 学 者 学 习 它 的 时 候 会 
有 “ 乱 花 渐 欲 迷人 有 眼 ”的 感觉 。TensorFlow 主要 也 是 使 用 计算 图 (Graph) 表示 计算 任 
务 ， 在 Session 中 执行 计算 图 ， 图 的 节点 代表 运算 操作 (Operation 简称 op) ， 图 中 的 边 
代表 节点 间 传 递 的 张 量 数据 Censor) 。 这 里 的 张 量 数据 和 Py Torch 的 Tensor 与 Chainer 
的 Variable 概念 类 似 ， 只 是 属性 和 方法 可 能 有 些 差异 。 

TensorFlow 使 用 变量 Variable 维护 状态 ， 它 的 值 可 以 改变 ， 运 算 前 需要 执行 初始 化 


11 https://github.com/chainer/ChainerCV 
12 https://www.tensorflow.org/install/?hl-zh-cn 
13 https://github.com/tensorflow/tensorflow/issues/15604 


操作 。 占 位 符 placeholder 没有 特定 的 值 ， 需 要 给 出 形状 ， 在 运行 时 再 带 入 具体 的 值 。 

运算 操作 主要 包括 基本 的 加 、 减 、 乘 、 除 、 指 数 、 对 数 算术 运算 以 及 高 级 的 矩阵 变 
换 操 作 ， 如 卷 积 、 池 化 、LSTM、GRU 等 ， 一 个 操作 可 以 接收 0 个 或 多 个 张 量 作为 输入 ， 
并 输出 0 个 或 多 个 张 量 。 

TensorFlow 一 般 会 先 创建 一 个 计算 图 ， 最 初 的 op 操作 不 需要 输入 ， 如 常量 ， 然 后 
传 给 其 他 op， 计 算 输 出 ， 再 传 下 去 ， 多 次 作 类 似 操 作 ， 这 样 便 创建 好 了 一 个 计算 图 。 然 
后 创建 Session 对 象 ， 在 Session 对 象 中 执行 图 的 op 操作 ， 完 成 计算 。 最 后 关闭 Session. 

下 面 是 一 个 简单 矩阵 乘法 的 示例 ， 这 里 简单 说 明 一 下 代码 的 意义 : 第 1~2 行 表示 使 
用 第 一 块 GPU， 第 3-6 行 表示 设置 GPU 显存 随 程序 使 用 增加 ， 在 第 14 行使 用 ， 如 果 不 
设置 此 处 ， 那 么 TensorFlow 会 默认 使 用 所 有 显存 。 第 9-10 行为 创建 最 起 始 的 tensor GÉ 
状 分 别 为 1X2 和 2x1) ， 第 12 行 定义 了 一 个 矩阵 乘法 ， 第 14 行 利用 config 参数 使 
GPU 使 用 按 需 分 配 ， 创 建 了 一 个 Session 上 下 文 管理 块 ， 第 15 行为 执行 乘法 操作 ， 然 后 
再 打印 输出 。 


1 import os 

2 os.environ["CUDA VISIBLE DEVICES "] = "0 " 
3 

4 import tensorflow as tf 

5 config = tf.ConfigProto() 

6 config.gpu options.allow growth = True 
7 

8 

9 x = tf.constant([[10.,20.]]) 

10 y = tf.constant([[30.], [40.]]) 

11 

12 z = tf.matmul (x, y) 

13 
14 with tf.Session(config-config) as sess: 
T5 print (sess.run (z)) 

3.3.2 Keras 


Keras 由 Google 工程 师 Francois Chollet 开发 ， 属 于 高 级 神经 网 络 API， 成 长 快速 ， 
使 用 简单 ， 有 许多 预 训练 模型 ， 后 端 支持 TensorFlow、CNTK 和 MXNet. 
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本 书 只 关注 TensorFlow，Keras 发 展 得 非常 迅猛 ， 目 前 已 经 集成 到 TensorFlow 中 ， 
但 也 可 以 单独 使 用 。 最 新 的 Keras 版 本 为 2.2.0， 目 前 关于 单独 使 用 Keras 的 教程 很 多 ， 
故 本 书 会 尽量 直接 使 用 最 新 版 本 TensorFlow 中 的 Keras 进行 示范 。 其 安装 过 程 可 参见 官 
Pak", 

Keras 的 优势 是 可 以 快速 进行 神经 网 络 的 原型 设计 ， 支 持 CNN ENN, HET ICSE 
CPU/GPU 切换 。 其 核心 数据 结构 为 model， 代 表 了 神经 网 络 层 的 组 织 方式 ， 有 简单 的 堆 
BX Sequential()， 也 有 适用 于 复杂 结构 的 函数 式 模式 Model. 


1. Sequential 模式 

Sequential 方式 主要 利用 add 方法 来 添加 网 络 层 ， 其 中 第 一 层 需要 指定 input_ 
shape， 即 模型 所 期 望 的 输入 尺寸 ， 后 续 的 网 络 层 系统 会 自动 地 推算 ， 十 分 友好 。 

添加 完毕 后 利用 compile 进行 编译 ， 即 将 模型 与 损失 函数 、 优 化 算法 及 评估 标准 进 
行 关联 ， 分 别 使 用 loss, optimizer, metrics 关键 字 传递 。 

然后 将 训练 集 数据 以 NumPy 数组 结构 传 入 fit 方法 进行 训练 ，x_train 可 以 表示 图 片 ， 
y train 可 以 表示 类 别 所 对 应 的 数值 标签 ，epochs 表示 在 训练 集 上 的 训练 轮 数 ，batch_size 
表示 每 轮 中 批 训练 的 样本 数 大 小 ， 每 轮 的 迭代 次 数 为 训练 样本 总 数 /batch_size， 训 练 时 
样本 一 般 默认 会 随机 打 乱 顺序 ， 然 后 利用 evaluate 在 测试 集 上 进行 测试 ， 因 不 是 训练 ， 
故 只 需 将 全 部 测试 样本 运行 一 遍 即 可 ， 同 时 无 须 随 机 打 乱 顺序 。 

最 后 利用 predict 方法 直接 进行 测试 ， 可 以 批量 传 入 待 测试 样本 ， 如 图 片 ， 可 得 到 每 
张 图 片 所 对 应 的 类 ， 对 于 分 类 来 说 ，predict 主要 做 了 网 络 计算 ，softmax 归 一 化 ， 并 利 
用 argmax 的 操作 获取 最 大 类 别 下 标 ， 对 于 其 他 任务 ， 则 可 查看 对 应 源码 实现 细节 。 

以 下 是 一 个 简单 的 Sequential 示例 ， 如 果 使 用 独立 的 Keras, A AEH keras. 
backend 中 tensorflow_backend 包 里 的 set_session 进行 GPU 按 需 分 配 的 设置 。 


import os 
os.environ["CUDA VISIBLE DEVICES "] = "0 " 


import numpy as np 


import tensorflow as tf 


1 
2 
3 
4 
5 
6 
7 config = tf.ConfigProto() 

8 config.gpu options.allow growth = True 


14 https://keras.io 


68 


第 3 章 常见 深度 学 习 框 架 


10 from tensorflow import keras 
11 from tensorflow.python.keras import backend as K 
12 K.set session(tf.Session(config-config) ) 


14 from tensorflow.python.keras import layers 
15 from tensorflow.python.keras import optimizers as opts 
16 


DI xwtradm 


np.random.random((1000, 20)) 

18 y train = keras.utils.to categorical (np.random.randint (10, 
size-(1000, 1)), num classes-10) 

19 x test = np.random.random((100, 20)) 

20 y test = keras.utils.to categorical (np.random.randint (10, 
size-(100, 1)), num classes-10) 

21 

22 model = keras.models.Sequential () 

E 

24 model.add(layers.Dense(64, activation-'relu', input dim-20)) 

25 model.add(layers.Dropout (0.5)) 

26 model.add(layers.Dense(64, activation-'relu')) 

27 model.add(layers.Dropout (0.5)) 

28 model.add(layers.Dense(10, activation-'softmax')) 

ER 

30 sgd = opts.SGD(l1r-0.01, decay-1e-6, momentum-0.9, 
nesterov-True) 


31 model.compile(loss-'categorical crossentropy', 


32 optimizer-sgd, 

33 metrics-['accuracy']) 

34 

35 model.fit(x train, y train, 

36 epochs-5, 

37 batch size-128) 

38 score - model.evaluate (x_test, y test, batch size-128) 
39 


40 print(score) 
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屏幕 输出 结果 如 下 : 


#output 
Epoch 1/5 
Epoch 1/5 
1000/1000 [=============================] - 0s 433us/step - loss: 
2.4670 - acc: 0.0940 
Epoch 2/5 
1000/1000 [============================] - 0s 23us/step - loss: 
2al = ace: 0-050 
Epoch 3/5 
000/1000 
279411 dcos 
Epoch 4/5 
000/1000 [=============================] - 0s 25us/step - loss: 
29392605 = acca 071050 
Epoch 5/5 
000/1000 
GCC 
00/100 [==============================] - 0s 367us/step 
2.3002376556396484, 0.15000000596046448 


以 上 示例 中 使 用 了 Dense， 它 是 什么 呢 ? 其 实 就 是 全 连接 层 ， 另 外 Keras 训练 时 的 
输出 效果 也 看 着 很 整洁 。 
keras.layers 中 包含 了 很 多 常用 的 神经 网 络 基本 层 ， 各 层 都 支持 共同 的 方法 ， 如 get_ 
weithts 获取 权重 参数 ，set_weights 设置 权重 参数 ，get_config 获取 网 络 层 的 配置 信息 ， 
下 面 对 不 同 层 作 简要 介绍 : 
e Dense 层 即 全 连接 层 ， 执 行 的 是 Wx+b 的 线性 变换 操作 ， 对 参数 W，b 可 以 使 用 
不 同 的 初始 化 方法 ， 另 外 也 包含 正则 化 操作 。 
© Activation 是 激活 层 ， 它 的 功能 主要 是 进行 非 线性 变换 操作 ， 如 RELU 执行 的 就 
是 max(0, x) 的 操作 ， 当 然 还 有 其 他 的 激活 函数 ， 如 sigmoid、softmax、RELU 的 
各 类 变形 以 及 MaxOut 等 。 
© Dropout 层 作 用 是 随机 地 让 一 些 神 经 元 不 起 作用 ， 作 用 效果 类 似 机 器 学 习 中 的 
Ensemble 〈 模 型 级 别 ) ， 这 些 是 神经 元 级 别 。 
* Flatten 层 执行 展开 操作 ， 比 如 图 片 Batch、Height、Width、Channels 经 过 Flatten 
HEA (Batch, HeightX Width X Channels) 。 


- 0s 25us/step - loss: 





- 0s 25us/step - loss: 











e Input 层 用 于 实例 化 Keras 的 张 量 数据 。 

e Reshape 层 会 对 张 量 的 形状 进行 变换 。 

* Lambda 层 作 用 是 自 定义 Layer 对 象 。 

© Conv2D 卷 积 层 ， 适 用 于 计算 机 视觉 领域 ， 其 主要 参数 有 输出 的 channel 数 ， 卷 
积 核心 大 小 ， 移 动 步 长 strides， 边 缘 补 齐 padding 等 。 

© Pooling 层 主要 有 最 大 池 化 ， 平 均 池 化 ， 同 时 会 针对 不 同 维度 使 用 不 同 接口 。 


还 有 许多 其 他 的 层 ， 比 如 用 于 循环 神经 网 络 的 基本 层 GRU 和 LSTM 等 ， 各 层 的 具 
体 定义 和 详细 参数 及 使 用 方法 可 参见 官方 网 站 o 


2. 函数 式 模式 

前 面 介 绍 了 Sequential 模型 的 使 用 方法 ， 它 适用 于 一 层 一 层 地 按 顺 序 将 基础 层 堆积 
起 来 的 线性 设计 ， 但 如 果 想 做 跨 层 或 组 合 操作 呢 ?” 比 如 像 ResNet 一 样 ， 此 时 就 可 以 使 
用 函数 式 API 来 设计 网 络 模型 。 

通过 以 下 示例 可 以 看 到 ， 函 数 式 模式 主要 是 使 用 keras.models.Model 来 创建 神经 网 
络 ， 参 数 为 神经 网 络 的 输入 张 量 a 和 输出 张 量 b， 其 中 张 量 a 到 张 量 b 之 间 的 操作 直接 
由 layers 层 构 建 计算 流程 ， 如 此 处 使 用 了 b= layers.Dense(32)(a)， 即 a 经 过 Dense(32) 层 
便 得 到 b, 像 函数 一 样 直接 传递 参数 调用 即 可 , 这 也 是 函数 式 APT 名 字 的 由 来 , 生动 直观 ; 
然后 再 添加 Dropout 层 b = layers.Dropout(0.5)(b)， 这 里 重复 使 用 变量 b， 有 个 好 处 是 在 
网 络 特别 大 的 时 候 ， 会 节省 一 些 资源 开销 。 

理解 了 基本 的 输入 到 输出 的 计算 后 ， 就 可 以 添加 更 加 复杂 的 网 络 层 操作 如 CNN、 
RNN 等 ， 注 意 这 些 计算 应 该 要 串联 起 来 ， 不 能 断 开 ， 和 否则 网 络 就 在 某 处 断 掉 ， 致 使 计算 
前 后 连接 不 上 ， 输 入 与 输出 也 就 没有 对 应 关系 了 。 

模型 中 的 compile. train 方法 的 调用 和 Sequential 类 模型 对 应 方法 一 致 。 

如 果 是 多 输入 和 多 输出 ， 操 作 类 似 ， 如 输入 为 a、b、c 三 个 张 量 ， 输 出 为 dis_ 
ab、dis_ac 两 个 张 量 ， 这 就 是 图 像 搜 索 中 相似 图 像 距离 的 主要 输入 输出 ， 此 时 可 使 用 
Model(inputs=[a,b,c], outputs=[dis_ab, dis_ac]) 来 构建 模型 。 

import os 

os.environ["CUDA VISIBLE DEVICES "] = "0 " 


15 https://keras.io/layers/about-keras-layers 
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import numpy as np 


import tensorflow as tf 
config = tf.ConfigProto () 


config.gpu options.allow growth = True 


from tensorflow import keras 

from tensorflow.python.keras import backend as K 
K.set session (tf.Session (config-config) ) 

from tensorflow.python.keras import layers 


from tensorflow.python.keras import optimizers as opts 


a — layers.Input (shape- (32,)) 
b = layers.Dense (32) (a) 
b = layers.Dropout (0.5) (b) 


model = keras.models.Model(inputs-a, outputs-b) 


3. 模型 保存 与 加 载 

当 模 型 经 过 长 时 间 的 训练 后 ， 怎 样 保存 和 加 载 以 供 后 续 使 用 呢 ? 此 时 可 使 用 model. 
save(model file path) 方法 来 将 模型 保存 到 HDFS 格式 的 文件 中 ， 它 保存 了 模型 的 结构 、 
权重 参数 、 训 练 配置 、 优 化 模块 状态 〈 人 允许 从 上 次 结束 的 地 方 继续 训练 ) ， 然 后 可 使 用 
keras.models.load model(model file path) 方法 重新 加 载 模型 。 

如 果 只 想 保 存 神经 网 络 的 结构 ， 那 么 可 用 model.to_json0 方法 和 model to yaml() X 
法 ， 再 使 用 keras.models.model from json 和 model from yaml 重建 模型 。 

对 于 权重 参数 则 有 save weights 和 load weights 操作 。 

Keras 和 动态 框架 此 处 有 些许 不 同 ， 动 态 框 架 一 般 会 建议 只 保存 权重 参数 或 状态 ， 
使 用 时 重新 建立 一 个 与 训练 时 一 样 的 网 络 模型 ， 然 后 加 载 权重 到 模型 中 ， 但 无 论 是 哪 种 
方式 ， 其 实质 上 的 内 容 是 一 致 的 ， 都 主要 包括 网 络 模型 定义 和 权重 〈 或 加 上 状态 信息 ， 
供 继续 训练 ) 。 

Keras 还 有 其 他 很 多 内 容 ， 如 图 像 预 处 理 ， 文 本 预 处 理 ， 各 种 常规 的 损失 函数 ， 常 
见 的 评估 标准 ， 优 化 方法 等 ， 在 此 就 不 一 一 装 述 ， 各 个 框架 都 有 类 似 的 东西 ， 笔 者 的 体 
会 是 ， 熟 悉 一 个 框架 后 ， 再 学 习 其 他 框架 就 会 轻车熟路 。 


3.4 MXNet 5 Gluon 





3.4.1 MXNet 


MXNet 5j Gluon” 由 李 沐 ”和 陈 天 奇 主导 的 团队 开发 , 获得 了 Amazon 的 支持 , 中 文 
社区 强大 。MXNet 与 Gluon 的 关系 类 似 于 TensorFlow 和 Keras 的 关系 。 而 且 李 沐 带 领 
他 的 团队 进行 视频 教学 ， 诚 意 满 满 ， 而 且 教学 内 容 非常 注重 工程 实际 应 用 ， 其 中 文 网 址 
为 https://zh.gluon.ai， 教 学 内 容 由 浅 入 深 ,， 初 学 者 和 有 经 验 的 人 士 应 该 都 会 有 不 同 的 收获 。 
安装 的 话 可 使 用 以 下 语句 ， 当 然 可 以 参考 官方 网 站 ”的 其 他 方法 。 本 书 使 用 的 版 本 为 
MXNet 1.2.0. 


pip install mxnet-cu75 # CUDA 7.5 
pip install mxnet-cu80 # CUDA 8.0 
pip install mxnet-cu90 # CUDA 9.0 
pip install mxnet-cu91 # CUDA 9.1 
pip install mxnet-cu92 # CUDA 9.2 


和 其 他 框架 的 核心 变量 一 样 ，MXNet 也 有 最 基本 的 数据 结构 ， 叫 做 NDArray， 先 创 
建 一 个 NDArray， 然 后 打印 出 来 ， 就 能 观察 到 它 的 开关 和 所 使 用 的 设备 ， 其 有 shape. 
size 和 reshape 等 类 似 的 属性 和 方法 操作 ， 也 支持 各 类 算术 运算 。 

NDArray 数据 的 保存 和 读 取 直接 利用 nd.save('filename', nd variable) 和 nd_variable= 
nd.load('filename") 即 可 。NDArray 和 NumPy 的 相互 转换 也 十 分 简单 ， 参 考 如 下 代码 : 


from mxnet import nd 


import numpy as np 


= nd.arange(15).reshape((3,5)) 


x.asnumpy() #NDArray~>NumPy 

z = nd.array(y) #NumPy~>NDArray 

MXNet 计算 有 自动 微分 的 包 autograd， 支 持 动态 计算 图 ， 使 用 autograd.record() id 
录 整 个 计算 历史 ， 使 用 a.attach_grad0 表示 想 要 计算 a 的 梯度 ， 那 么 系统 就 会 为 a 的 梯 
度 分 配 内 存 ， 简 单 示例 如 下 : 


16 https://mxnet.apache.org/ 

17 https://mxnet.incubator.apache.org/gluon/ 

18 https://www.zhihu.com/people/mli65/activities 

19 https://mxnet.apache.org/install/index.html?platform-Linux&language-Python&processor-GPU 
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from mxnet import autograd, nd 


def f(a): 


b= a * 2 

while b.norm().asscalar() « 1000: 
b=b* 2 

if b.sum().asscalar() > 0: 
c=b 

else: 
c — 100 * b 


return c 


a = nd.random.normal (shape=1) 


a.attach grad() 


with autograd.record(): 


c = f(a) 


c.backward () 


3.4.2 Gluon 


Gluon 是 比较 高 级 的 API， 封 装 了 很 多 实用 的 方法 和 类 ， 有 具体 如 下 所 示 。 


gluon.nn.(Hybrid)Block: 容器 类 概念 ， 用 于 构建 神经 网 络 。 
gluon.loss: 定义 了 常见 损失 函数 。 

gluon mm, 常见 基础 网 络 层 。 

gluon.Trainer: 训练 主管 。 

mxnetoptimizer: 常见 优化 算法 。 

mxnetnd: 核心 变量 。 


3.4.3 Gluon Sequential 


Gluon 也 支持 像 在 Keras 中 用 Sequential 进行 顺序 模型 设计 的 功能 。Gluon 中 的 
Sequential 同样 使 用 add 方法 添加 基础 操作 层 ， 然 后 初始 化 权重 参数 ， 指 定 损失 函数 ， 
由 Trainer 管理 员 管理 优化 算法 与 模型 参数 之 前 的 沟通 问题 ， 然 后 分 小 批 读 取 训练 数据 ， 
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记录 计算 历史 ， 得 到 损失 函数 值 ， 执 行 自动 微分 ，trainer 调用 step(batch size) 方法 进行 
权重 参数 更 新 。 








注意 这 里 更 新 权重 参数 时 使 用 了 batch size 这 个 参数 ， 原 因 是 loss 未 作 平 均 ， 此 处 


可 以 使 用 7 = loss(net(X), y)， 然 后 就 可 以 用 trainerstep(1) 进行 更 新 了 ， 其 他 框架 一 般 在 
loss 内 部 作 了 平均 ， 示 例 代码 如 下 : 


from mxnet import gluon 
from mxnet.gluon import nn 
from mxnet import init 


from mxnet.gluon import loss as gloss 


net = nn.Sequential() 


net.add (nn.Dense (5) ) 
net .add (nn.Dense (1) ) 


net.initialize (init Normal (sigma=0.01)) 
loss = gloss.L2Loss() 


trainer = gluon.Trainer(net.collect params(), 'sgd', {'learning_ 


rate': 0.03}) 


num_epochs = 3 
for epoch in range(1, num_epochs + 1): 
for X, y in data_iter: 
with autograd.record(): 
1 = loss(net(X), y) 
1. backward () 
trainer.step(batch size) 
print("epoch $d, loss: $f " 


$ (epoch, loss(net(features), labels).mean().asnumpy())) 


3.4.4 Gluon Block 


Gluon 中 更 加 基础 和 强大 的 模型 设计 方法 是 继承 Block 类 ， 并 重新 实现 ”init 和 


forward 方法 。 这 与 前 面 的 动态 框架 PyTorch 和 Chainer 定义 类 似 ,， 用 forward 或 _call ` 
方法 进行 真正 的 调用 计算 ， 比 如 此 处 的 net(x)， 无 需 编 写 反 向 传播 方法 ， 系 统 会 自动 生 
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HX backward 方法 。 当 训练 好 一 个 模型 后 ，Gluon 使 用 save params 保存 模型 参数 ， 使 用 
load params 加 载 参数 到 新 定义 的 同样 的 网 络 模型 中 , 达到 参数 复 用 的 目的 , 示例 代码 如 下 : 


from mxnet import nd 


from mxnet.gluon import nn 
class MLP (nn.Block): 
1 def _ init (self, **kwargs): 
2 super (MLP, self). _init__ (**kwargs) 
self.hidden = nn.Dense (256, activation='relu') 


self.output = nn.Dense (10) 


def forward(self, x): 
return self.output (self.hidden(x)) 


x = nd.random.uniform(shape-(2,20)) 
net = MLP() 
net.initialize() 


print (net (x)) 
D 
# train code 
+ 


net.save_params ('mlp.params') 


net2 = MLP () 


net2.load_params('mlp.params') 


3.4.5 使 用 GPU 


MXNet 使 用 GPU 的 方式 和 其 他 框架 不 太一 样 ， 主 要 通过 mxnetcpu(cpuid 和 mxnet.gpu 
(gpuid) 来 指定 。 每 个 NDArray 都 有 一 个 context 属性 表示 此 变量 所 使 用 的 设备 。 生 成 
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NDArray 时 可 使 用 ctx 关键 字 指 定 使 用 哪个 设备 ， 模 型 初始 化 也 有 些 参数 。 同 时 也 提供 
了 copyto 和 as in context 方法 将 变量 在 不 同 设备 间 进 行 传输 。 

另外 需要 注意 系统 会 默认 要 求 进行 计算 的 量 都 在 同一 设备 上 , 这 在 其 他 框架 也 类 似 ， 
比如 都 在 第 1 块 GPU 上 ， 示 例 代 码 如 下 : 


import mxnet as mx 
from mxnet import nd 


from mxnet.gluon import nn 


x = nd.array([1, 2, 3], ctx-mx.gpu()) # GPU 0 
x = nd.array([1, 2, 3], ctx-mx.gpu(1)) # GPU 1 
x = nd.array([1,2,3]) # CPU 


y 7 x.copyto (mx.gpu (1)) 
z = x.as in context (mx.gpu (1) ) 


net = nn.Sequential () 
net.add(nn.Dense (2) ) 


net.initialize (ctx=mx.gpu (1) ) 


Gluon 中 使 用 多 GPU 训练 只 需要 在 初始 化 的 时 候 将 GPU 设备 按 列表 方式 传 入 即 可 ， 
对 于 数据 分 片 则 可 使 用 split and load 方法 将 数据 分 割 并 分 配 到 不 同 设备 上 ， 如 这 里 的 数 
据 gpuO x 和 gpul_x， 详 情 可 参见 官方 网 站 ， 示 例 代码 如 下 : 


net.initialize(init-init.Normal(sigma-0.01), ctx-[mx.gpu(0),mx. 
gpu (1) ]) 


x = nd.random.uniform(shape=(4, 1, 28, 28)) 


gpu0_x,gpul_x = mx.gluon.utils.split and load(x, [mx.gpu(0),mx. 
gpu (1) ]) 


3.4.6 Gluon Hybrid 


Gluon 结合 了 动态 框架 和 静态 框架 的 优势 ， 使 用 了 混合 编程 方式 ， 在 开发 调试 阶段 
使 用 命令 式 编程 方式 ， 在 部 署 时 则 尽量 将 模型 转换 为 符号 式 程序 来 执行 。 


TT 


深度 学 习 实践 : 计算 机 视觉 


在 Gluon 中 可 使 用 HybridBlock 或 HybridSequential 来 构建 此 类 模型 ， 默 认 此 类 模 

型 以 命令 方式 执行 ， 但 调用 hybridize 方法 后 ，Gluon 会 按 符 号 方式 执行 ，net() 接收 一 个 

Symbol 变量 x， 返 回 一 个 Symbol 变量 ， 然 后 使 用 export 保存 符号 式 模型 及 参数 到 本 地 

(json 和 params 文件 ) ， 便 可 移植 到 其 他 语言 《C++HScala/Julia/R) 和 平台 上 运行 ， 示 
例 代码 如 下 : 


from mxnet import nd, sym 
from mxnet.gluon import nn 


from time import time 


net = nn.HybridSequential () 

net.add( 
nn.Dense(256, activation= "relu"), 
nn.Dense(128, activation= "relu"), 
nn.Dense (10) ) 


net.initialize() 


x = nd.random.normal (shape=(1, 28*28)) 


net .hybridize () 
y = net (x) 


net.export('user mlp') 


继承 HybridBlock 需要 实现 hybrid forward 前 向 计算 方法 ， 实 现 过 程 中 需要 使 用 参 
数 忆 ,下 可 区 分 系统 应 该 使 用 NDArray 类 还 是 Symbol 类 。 

默认 五 为 NDArray 类 ， 当 使 用 hybridize JJ, F 就 变 为 Symbol 类 ， 其 网 络 中 间 
的 打印 语句 会 被 编译 优化 掉 ， 之 后 再 运行 net(x) 时 MXNet 将 直接 在 C++ 后 端 执行 符号 
程序 ， 不 再 访问 Python 代码 ， 因 此 也 失去 了 Python 动态 调试 的 灵活 性 。 

故 一 般 在 开发 测试 阶段 使 用 Python 语言 ， 在 部 署 时 全 部 或 部 分 将 其 转换 成 符号 程 
序 ， 这 里 的 部 分 转换 是 指 在 神经 网 络 中 如 果 有 关于 输入 的 条 件 判 断 或 循环 ， 则 不 适合 做 
Hybridize， 即 hybrid forward 不 能 有 这 些 判 断 逻 辑 。 另 外 Symbol 也 不 支持 asnumpy 这 
类 操作 ， 示 例 代码 如 下 : 


class HybridNet (nn.HybridBlock): 


det anit (self, **kwargs): 
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super(HybridNet, self). init  (**kwargs) 
self.hidden - nn.Dense(512) 
self.output = nn.Dense(10) 


def hybrid forward(self, F, x): 
prine (E: "7 B) 
print( xs T x) 
x = F.relu(self.hidden (x) ) 
print ("hidden: ', x) 
return self.output (x) 


net = HybridNet () 


net.initialize() 


x = nd.random.normal (shape=(1, 1024)) 


net (x) 


net . hybridize () 


net (x) 


3.4.7 Lazy Evaluation 


在 现实 生活 中 ， 如 果 去 银行 办 理 业务 ， 会 发 现 有 的 业务 只 有 一 个 窗口 可 以 办 理 ， 因 
为 这 类 业务 需求 较 少 ， 而 有 的 业务 可 以 在 多 个 窗口 办 理 ， 因 为 这 类 需求 较 多 。 

计算 机 中 也 可 以 达到 类 似 的 效果 ， 如 果 几 个 计算 逻辑 间 有 依赖 关系 ， 比 如 catb, 
e-dXf, 8-c/e， 那 么 只 能 得 到 c 和 e 之 后 才能 得 到 g; 而 另外 一 种 情况 是 c 和 e 之 间 是 
没有 依赖 计算 的 ， 即 它们 可 以 同时 执行 ， 这 样 就 可 以 达到 以 空间 换 时 间 的 效果 。 

MXNet 默认 会 使 用 lazy evaluation， 其 意义 是 计算 在 被 取 用 的 时 候 才 执行 ， 如 果 想 
要 使 某 次 计算 执行 完 再 作 其 他 操作 ， 可 以 使 用 print、wait to_read、asnumpy、asscalar 77 
法 或 waitall 方法 让 所 有 计算 完成 。 

lazy evaluation 实际 上 是 一 种 空间 (内 存 〉 换 时 间 的 操作 策略 ， 而 提前 执行 操作 则 
是 时 间 换 空间 的 策略 ， 在 深度 学 习 计 算 机 视觉 领域 ， 图 像 算 是 一 种 高 密度 的 数据 ， 所 以 
建议 在 时 间 空 间 方面 作 一 些 平衡 : 如 每 个 batch 都 可 使 用 同步 函数 操作 ， 比 如 print 当前 
的 loss. 
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3.4.8 Module 


MXNet 还 有 另外 一 种 高 级 API 叫 Module， 它 主要 是 使 用 符号 方法 ， 有 4 个 过 程 : 


(1) 定义 模型 ， 没 有 分 配 显存 。 

(2) Bind 函数 利用 数据 和 标签 的 shape 分 配 显存 。 
G) 初始 化 网 络 参数 ， 选 取 优 化 算法 。 

(4) 使 用 fit 进行 训练 。 


以 下 为 简单 示例 代码 : 
import mxnet as mx 


net = mx.symbol.Variable('data') 

net = mx.symbol.FullyConnected (net, name-'fcl', num hidden-128) 
net = mx.symbol.Activation(net, name-'relul', act type- "relu") 

net = mx.symbol.FullyConnected(net, name = 'fc2', num hidden = 64) 
net = mx.symbol.Activation(net, name-'relu2', act type- "relu") 

net = mx.symbol.FullyConnected (net, name-'fc3', num hidden-10) 


net = mx.symbol.SoftmaxOutput (net, name = 'softmax') 
model = mx.mod.Module (net) 


model.bind(data shapes-train dataiter.provide data, 


label shapes-train dataiter.provide label) 


model.init params() 


train iter.reset() 





model.fit(train iter, eval data-eval iter,optimizer-'sgd', 
optimizer params-('learning rate':0.01, 'momentum': 0.9}, 


eval metric-'acc',num epoch-10) 


总 的 来 说 ，MXNet 非常 强大 ， 可 谓 动 静 皆 宣 。 
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3.5 其 他 框架 


Caffe 是 早期 十 分 优秀 的 计算 机 视觉 框架 ， 以 前 和 现在 学 术 界 论文 很 多 都 使 用 它 开 
发 ， 但 它 不 适合 文本 、 声 音 等 类 型 的 深度 学 习 开 发 ，Caffe 2 由 Caffe 原作 者 在 Facebook 
公司 时 开发 , 现 已 融入 PyTorch 中 ; CNTK 由 微软 开源 ， 它 在 分 步 式 领域 性 能 发 挥 高 效 。 
另外 还 有 其 他 框架 ， 读 者 可 自行 研究 。 





3.6 本 章 总 结 





本 章 着 重 介绍 了 几 款 框架 ， 目 前 各 类 框架 众多 ， 建 议 先 深入 学 习 一 款 框架 ， 然 后 
对 于 其 他 框架 便 能 触 类 旁 通 。 主 流 框架 相对 于 小 众 框架 的 优势 是 社区 更 加 活跃 ， 模 型 和 
Demo 更 加 丰富 ， 当 然 “ 踩 坑 填 坑 ” 更 多 ， 结 果 更 加 健壮 ， 更 新 更 加 频繁 。 

但 就 如 编程 语言 一 样 ， 各 个 框架 也 各 有 优势 劣势 ， 但 终究 它们 都 只 是 人 们 解决 问题 
的 工具 ， 殊 途 同 归 ， 笔 者 建议 熟悉 什么 就 用 什么 ， 不 必 拘 泥 于 某 种 语言 或 框架 。 
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图 像 分 类 即 Image Classification， 主 要 解决 如 何 将 图 像 按 视觉 特点 分 为 不 同类 别 的 
问题 ， 它 是 计算 机 视觉 中 的 基础 任务 ， 也 是 图 像 检 测 、 语 义 分 割 、 实 例 分割 、 图 像 搜索 
等 高 级 任务 的 根本 。 

图 像 分 类 包含 了 通用 图 像 分 类 、 细 粒度 图 像 分 类 (fine-grained classification) 等 ， 通 
用 分 类 主要 解决 识别 图 像 上 主体 类 别 的 问题 ， 如 是 猫 还 是 狗 的 问题 ， 细 粒度 分 类 则 解决 
如 何 将 大 类 进行 细 分 类 的 问题 ， 如 在 狗 这 一 类 别 下 ， 识 别 的 是 其 品种 〈 如 吉娃娃 、 泰 迪 、 
FAN. lei 的 问题 。 

图 像 分 类 效果 易 受 视角 、 光 照 、 背 景 、 形 变 、 部 分 遮挡 等 的 影响 ， 所 以 想 要 做 好 这 
一 块 ， 现 实 工程 难度 仍然 不 小 。 

传统 的 图 像 分 类 会 涉及 两 个 过 程 : 特征 和 分 类 。 特 征 是 指 比 图 片 中 原始 像素 更 加 高 


级 的 信息 ， 它 能 





区 分 不 同类 别 之 间 的 差异 ， 即 用 它 就 可 以 完成 分 类 任务 。 比 如 简单 的 统 
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it RGB E HSL 值 的 分 步 ， 或 利用 梯度 信息 等 操作 ; 然后 将 这 些 特 征 与 对 应 的 类 别 信息 
传 入 Random Forest、SVM 等 机 器 学 习 模 型 中 进行 训练 ， 达 到 分 类 的 效果 。 

深度 学 习 在 图 像 分 类 中 的 应 用 主要 是 以 卷 积 神经 网 络 (Conveolution Neural Network, 
CNN) 为 代表 ， 主 要 通过 有 监督 的 方法 让 计算 机 去 学 习 如 何 表 达 某 张 图 片 的 特征 。 

2012 年 Hinton 的 学 生 参 加 ImageNet 竞赛 ， 使 用 AlexNet 进行 图 像 分 类 一 鸣 惊 人 ， 
2013 年 出 现 了 ZFNet， 详 尽 解 释 了 CNN 的 特点 ，2014 年 VGGNet 将 CNN 的 层 数 大 幅 
提高 ， 且 使 用 可 重复 县 加 的 结构 块 ，2015 年 MSRA 的 何 凯 明 使 用 ResNet 残 差 网 络 获 
得 ImageNet 竞赛 冠军 ， 将 网 络 层 数 提高 到 了 152 层 ， 且 在 Cifar10 数据 集 提高 到 了 1202 
层 。 在 这 些 网 络 技术 发 展 的 同时 ，Google 也 提出 了 Inception 网 络 ， 并 获得 了 2014 年 
ImageNet 竞赛 冠军 ， 目 前 有 4 个 版 本 ，VGG 和 ResNet 这 种 网 络 研究 的 是 网 络 深 度 方向 ， 
Inception 则 更 加 关注 宽度 方向 ， 在 同一 层 整 合 了 不 同感 受 野 的 信息 ， 提 高 了 输出 信息 的 
丰富 度 。2017 年 的 时 候 ，ResNext 对 ResNet 进行 了 改进 ， 利 用 了 卷 积分 组 的 概念 。 另 外 
还 出 现 了 DenseNet 这 种 关注 点 在 feature 上 的 网 络 ， 也 是 一 个 非常 有 意思 的 方向 。 

目前 计算 机 视觉 领域 大 多 优秀 的 深度 学 习 算 法 都 需要 大 量 的 训练 数据 集 ， 其 中 最 为 
出 名 的 便 是 ImageNet。 但 在 实际 工程 中 ， 通 常 只 拥有 少量 的 数据 样本 ， 此 时 如 果 从 头 训 
练 〈 随 机 初始 化 神经 网 络 参数 ) ， 过 拟 合 是 大 概率 事件 。 

由 于 CNN 在 靠近 输入 的 网 络 层 会 提取 比较 基础 的 特征 ， 如 边缘 、 点 、 面 等 ， 而 在 
靠近 输出 的 网 络 层 会 提取 比较 高 级 的 语义 特征 ， 如 猫 、 花 等 ， 参 见 CNN 网 络 可 视 化 论 
文 '，， 因 此 便 可 使 用 Fine-Tune 技术 来 部 分 解决 样本 数据 少 的 问题 。 

Fine-Tune 主要 过 程 是 利用 在 大 数据 集 上 训练 的 网 络 参数 来 作 初始 参数 ， 这 样 便 可 
以 得 到 比较 好 的 初始 结果 ， 省 去 了 大 量 的 训练 时 间 和 对 大 量 样本 的 需求 ， 然 后 修改 网 络 
的 最 后 一 层 或 添加 新 层 ， 重 新 随机 初始 化 这 几 层 的 参数 ， 最 后 再 固定 网 络 中 的 某 些 层 的 
参数 ， 在 新 的 实际 应 用 的 数据 集 上 训练 并 只 更 新 其 他 层 的 参数 。 

本 章 将 简要 分 析 VGG、ResNet、Xception 和 DenseNet， 并 举 一 些 示 例 来 说 明 。 


1 http://arxiv.org/pdf/1311.2901.pdf 
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4.1 VGG 





4.1.1 VGG 介绍 


VGG 网 络 "结果 由 牛津 大 学 的 学 者 提出 ， 它 主要 使 用 了 3x 3 的 卷 积 和 2X2 的 池 化 
操作 的 重复 结构 ， 串 联 起 来 便 可 达到 使 网 络 的 层 数 更 多 ， 计 算 量 更 少 的 效果 。 

其 中 VGG16 的 结构 如 图 4-1 所 示 ， 其 中 蓝 色 部 分 均 为 3X3 的 卷 积 操作 ， 只 是 输出 
通道 数 不 同 ， 后 跟 Max Pooling 操作 减 半 平 面 空 间 尺 寸 ， 最 后 跟 了 三 层 全 连接 层 。 


ConV Block) 
channels:64 ConV Block1 


| | channels:256 Fully Connected 


MaxPooling(2*2) | Conv Block1 ConV Block1 


Con Bock) channels:512 channels:512 
channels:128 






































4-1 VGG16 结构 示意 图 


一 般 就 感受 野 来 说 : 两 个 3X3 卷 积 的 效果 相当 于 一 个 5X5 卷 积 ， 三 个 3X3 GH 
的 效果 相当 于 一 个 7X7 卷 积 ， 感 受 野 越 大 ， 后 层 单 个 神经 元 反 向 传播 时 对 前 层 的 影响 
范围 就 越 大 。 

常见 的 CNN 结构 一 般 为 : 输入 ~>[[ 卷 积 ~> 激活 函数 ]XN -> 池 化 ]XM ~> [AE 
BE 激活 ]XK > 全 连接 ，N 个 卷 积 + 激活 + 池 化 构成 一 个 子 网 络 ， 通 过 县 加 这 个 子 
网 络 达到 增强 整个 网 络 表达 能 力 的 效果 ， 接 着 再 跟 上 几 组 全 连接 加 激活 的 子 网 络 ， 最 后 
进行 一 次 全 连接 +softmax (对 于 二 分 类 使 用 sigmoid) 。 这 样 就 可 以 使 网 络 模块 化 ， 搭 
建 网 络 就 像 搭 积木 一 样 简洁 。 

在 动态 框架 中 搭建 VGG 十 分 简单 ， 详 情 可 分 别 参见 对 应 框架 的 以 下 教程 





https://zh.gluon.ai/chapter convolutional-neural-networks/vgg-gluon.html 
https://docs.chainer.org/en/stable/examples/cnn.html 
https://github.com/pytorch/vision/blob/master/torchvision/models/vgg.py 


2 https://arxiv.org/pdf/1409.1556.pdf 
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4.1.2 MXNet 版 VGG 使 用 示例 


此 处 可 以 用 加 州 理工 的 数据 集 Caltech 256， 并 在 每 个 类 别 抽取 10 张 图 片 ， 重 新 调 
整 图 片 大 小 为 256X256 并 利用 MXNet 官方 提供 的 脚本 制作 rec 文件 ， 到 官方 网 站 下载 
对 应 的 模型 文件 和 参数 文件 ， 此 处 使 用 的 是 VGG16。 

编写 以 下 bash 脚本 ， 其 中 img2rec 文件 需要 改 为 读者 所 用 的 环境 中 的 路 径 ， 执 行 
bash deal caltech.sh， 就 会 进行 下 载 数据 集 、 模 型 结构 与 参数 ， 并 作 前 述 提取 操作 。 


wget http://www.vision.caltech.edu/Image Datasets/Caltech256/256 
ObjectCategories.tar 
tar -xf 256 ObjectCategories.tar 


mkdir -p caltech 256 train 10 
for i in 256 ObjectCategories/*; do 
c=`basename Si" 
mkdir -p caltech 256 train 10/$c 
for j in "ls $i/*.jpg | shuf | head -n 10^; do 
mv $j caltech 256 train 10/$c/ 
done 


done 
在 命令 行 执行 以 下 命令 : 


python -/miniconda3/lib/python3.6/site-packages/MXNet/tools/im2rec. 
py --list --recursive caltech-256-10-train caltech 256 train 10/ 

python «/miniconda3/lib/python3.6/site-packages/MXNet/tools/im2rec. 
py --resize 256 --quality 90 --num-thread 16 caltech-256-10-train 
caltech 256 train 10/ 

python ~/miniconda3/lib/python3.6/site-packages/MXNet/tools/im2rec. 
py --list --recursive caltech-256-10-val 256 ObjectCategories/ 

python -/miniconda3/lib/python3.6/site-packages/MXNet/tools/im2rec. 
py --resize 256 --quality 90 --num-thread 16 caltech-256-10-val 256 - 
ObjectCategories/ 


wget http://data.MXNet.io/models/imagenet/vgg/vggl6-symbol.json 
wget http://data.MXNet.io/models/imagenet/vgg/vgg16-0000.params 


3 http://data.MXNet.io/models/imagenet 
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接着 编写 训练 文件 train.py: 


import mxnet as mx 

import logging 

head = '$(asctime)-15s %(message)s' 

logging. basicConfig (level=logging.DEBUG, format=head) 


E 

2 

3 

4 

5 

6 num classes = 256 
7 batch size = 16 

8 

9 

0 


#gpuid = 0 
10 train = mx.io.ImageRecordIter( 
11 path_imgrec = './caltech-256-100-train.rec', 
12 data name = Gata 
T3 label name - 'softmax label', 
14 batch size = batch size, 
15 data shape = (3, 224, 224), 
16 shuffle = True, 
17 rand_crop = Teue; 
18 rand mirror = True) 


19 val = mx.io.ImageRecordIter( 


20 path imgrec = './caltech-256-100-val.rec', 

21 data name = "data"; 

Do label name = 'softmax label', 

23 batch_size = batch_size, 

24 data_shape a 7224) 

25 rand crop = False, 

26 rand mirror = False) 

EN 

28 sym, arg params, aux params = mx.model.load checkpoint ('vgg16', 0) 
29 


30 all layers = sym.get internals() 

31 net - all layers['relu6 output'] 

32 net = mx.symbol.FullyConnected(data-net, num hidden-num 
classes, name-'new fc1') 

33 net = mx.symbol.SoftmaxOutput (data-net, name-'softmax') 

34 new args = dict([k:arg params[k] for k in arg params if 'new 
fci’ not im kl) 
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35 

36 

37 ctx = [mx.gpu(0), mx.gpu(1)] # using 2 GPU 
38 mod = mx.mod.Module (symbol=net, context=ctx) 


39 mod.fit (train, val, 


40 num epoch-18, 

41 arg params-new args, 

42 aux params-aux params, 

43 allow missing-True, 

44 batch end callback = mx.callback.Speedometer(batch size, 10), 
45 kvstore-'device', 

46 optimizer-'sgd', 

47 optimizer params-('learning rate':0.001}, 

48 initializer-mx.init.Xavier(rnd type-'gaussian', factor. 


type- "in", magnitude-2), 
49 eval metric-'acc') 
50 metric = mx.metric.Accuracy() 
51 mod score - mod.score(val, metric) 


52 print (mod score) 


其 最 后 执行 结果 如 下 : 

2018-06-07 18:57:01,114 Epoch[16] Batch [10 Speed: 161.20 
samples/sec accuracy=0.960227 

2018-06-07 18:57:02,098 Epoch[16] Batch [20 Speed: 162.73 
samples/sec accuracy=0.987500 

2018-06-07 18:57:03,093 Epoch[16] Batch [30 Speed: 160.81 
samples/sec accuracy-0.968750 

2018-06-07 18:57:04,082 Epoch[16] Batch [40 Speed: 161.76 
samples/sec accuracy-0.975000 

2018-06-07 18:57:05,078 Epoch[16] Batch [50 Speed: 160.63 
samples/sec accuracy-0.981250 

2018-06-07 18:57:06,076 Epoch[16] Batch [60 Speed: 160.44 
samples/sec accuracy-0.987500 

2018-06-07 18:57:07,071 Epoch[16] Batch [70 Speed: 160.85 








samples/sec accuracy-0.987500 
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2018-06-07 18:57:08,064 Epoch[16] Batch [80] Speed: 161.02 
samples/sec accuracy-0.981250 

2018-06-07 18:57:09,044 Epoch[16] Batch [90] Speed: 163.44 
samples/sec accuracy-0.981250 

2018-06-07 18:57:10,031 Epoch[16] Batch [100 Speed: 162.02 
samples/sec accuracy-0.987500 

2018-06-07 18:57:11,027 Epoch[16] Batch [110 Speed: 160.66 
samples/sec accuracy-0.987500 

2018-06-07 18:57:12,034 Epoch[16] Batch [120 Speed: 159.00 
samples/sec accuracy-0.981250 

2018-06-07 18:57:13,026 Epoch[16] Batch [130 Speed: 161.29 
samples/sec accuracy-0.987500 

2018-06-07 18:57:14,033 Epoch[16] Batch [140 Speed: 158.87 
samples/sec accuracy-0.981250 

2018-06-07 18:57:15,021 Epoch[16] Batch [150 Speed: 161.96 
samples/sec accuracy-0.981250 

2018-06-07 18:57:16,026 Epoch[16] Batch [160 Speed: 159.26 
samples/sec accuracy-0.993750 

2018-06-07 18:57:16,026 Epoch[16] Train-accuracy-0.993750 

2018-06-07 18:57:16,026 Epoch[16] Time cost-16.045 








2018-06-07 18:58:02,746 Epoch[16] Validation-accuracy-0.603359 





2018-06-07 18:58:03,766 Epoch[17] Batch [10 Speed: 161.05 
samples/sec accuracy-0.965909 

2018-06-07 18:58:04,811 Epoch[17] Batch [20 Speed: 153.26 
samples/sec accuracy-0.962500 

2018-06-07 18:58:05,770 Epoch[17] Batch [30 Speed: 166.86 
samples/sec accuracy-0.981250 

2018-06-07 18:58:06,766 Epoch[17] Batch [40 Speed: 160.57 
samples/sec accuracy-0.987500 

2018-06-07 18:58:07,764 Epoch[17] Batch [50 Speed: 160.34 
samples/sec accuracy-0.975000 

2018-06-07 18:58:08,766 Epoch[17] Batch [60 Speed: 159.72 
samples/sec accuracy-0.981250 

2018-06-07 18:58:09,770 Epoch[17] Batch [70 Speed: 159.42 
samples/sec accuracy-1.000000 

2018-06-07 18:58:10,754 Epoch[17] Batch [80 Speed: 162.63 











samples/sec accuracy-0.975000 
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2018-06-07 18:58:11,750 Epoch[17] Batch [90] Speed: 160.75 
samples/sec accuracy-0.987500 

2018-06-07 18:58:12,733 Epoch[17] Batch [100 Speed: 162.70 
samples/sec accuracy-0.987500 

2018-06-07 18:58:13,724 Epoch[17] Batch [110 Speed: 161.59 
samples/sec accuracy-0.993750 

2018-06-07 18:58:14,723 Epoch[17] Batch [120 Speed: 160.15 
samples/sec accuracy-0.993750 

2018-06-07 18:58:15,734 Epoch[17] Batch [130 Speed: 158.31 
samples/sec accuracy-0.993750 

2018-06-07 18:58:16,709 Epoch[17] Batch [140 Speed: 164.10 
samples/sec accuracy-0.993750 

2018-06-07 18:58:17,711 Epoch[17] Batch [150 Speed: 159.70 
samples/sec accuracy-0.993750 

2018-06-07 18:58:18,705 Epoch[17] Batch [160 Speed: 160.97 
samples/sec accuracy-0.975000 

2018-06-07 18:58:18,705 Epoch[17] Train-accuracy-0.975000 

2018-06-07 18:58:18,705 Epoch[17] Time cost-15.959 

2018-06-07 18:59:05,529 Epoch[17] Validation-accuracy-0.596925 





[('accuracy', 0.5969606164383562)] 


可 以 看 到 模型 学 习 到 了 知识 ， 但 在 测试 集 上 的 accuracy (分 类 准确 率 ) 不 够 高 ， 出 
现 这 种 情况 需要 从 多 方面 考察 原因 ， 读 者 可 以 自行 尝试 不 同 的 方法 。 


4.2 ResNet 





4.2.1 ResNet 介绍 


一 般 情 况 下 ， 随 着 模型 深度 的 加 深 ， 学 习 能 力 会 增强 ， 错 误 率 应 该 更 低 才 对 ， 即 表 
现 应 该 更 好 ， 但 到 一 定 程度 的 时 候 ， 错 误 率 却 增加 了 ， 这 就 是 所 谓 的 退化 问题 ， 其 原因 
可 归根 于 优化 难题 ， 即 模型 越 复 杂 ，SGD 优化 越 难 。 

针对 这 个 问题 ，ResNet 作者 提出 了 “ 残 差 结构 ”理论 ， 如 图 4-2 所 示 。 官 方 论文 分 
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为 第 一 版 * 和 第 二 版 , 即 输入 经 过 N 层 网 络 之 后 输出 了 ,然后 再 将 了 和 了 作对 应 元 素 相 加 ， 
这 样 就 结合 了 原始 并 的 信息 ， 形 成 一 个 残 差 块 。 这 个 操作 不 会 增加 网 络 的 参数 和 计算 量 ， 
但 可 以 加 速 训练 和 提高 训练 的 效果 ， 且 当 模 型 加 深 后 ， 能 很 好 地 解决 退化 问题 。 


X 









Convolution1 


F; | RELU 


Convolution2 

















Y=F()+X 
图 4-2 跨 层 连接 


目前 主流 框架 都 有 预 训练 的 模型 ， 从 头 实现 也 有 很 多 教程 。 比 如 对 于 Chainer, 4R 
少 的 代码 就 实现 的 ResNet152 层 ， 可 参见 相关 网 站 “; 官方 网 站 实现 的 ResNet 代码 量 也 
不 大 ， 可 参见 相关 网 站 ”， 要 求 用 户 自己 下 载 模 型 权重 ，Chainer 官方 支持 的 有 ResNet 50, 
ResNet 101 和 ResNet 152. 

对 于 PyTorch， 官 方 支持 的 层 数 种 类 更 多 ， 不 需要 用 户 自己 手动 下 载 模型 参数 ， 详 
情 可 见 相关 网 站 *， 它 包含 ResNet 18、ResNet 34, ResNet 50, ResNet 101 和 ResNet 152. 

目前 Keras 版 本 官方 的 只 有 ResNet 50， 对 于 MXNet-GLuon 系统 来 说 ，Gluon 支持 
的 模型 是 最 为 丰富 的 ， 包 括 作者 改进 的 第 二 版 ResNet， 可 见 相 关 网 站 ?。 


4.2.2 Chainer 版 ResNet 示例 


在 此 将 使 用 Chainer 这 个 轻 量 级 的 框架 作 示范 。 首 先 将 要 分 类 的 图 片 统一 按 类 别 


https://arxiv.org/pdf/1512.03385.pdf 
https://arxiv.org/abs/1603.05027 
https://docs.chainer.org/en/stable/examples/cnn.html 
https://github.com/chainer/chainer/blob/v4.0.0/chainer/links/model/vision/resnet.py 
https://github.com/pytorch/vision/blob/master/torchvision/models/resnet.py 
https://mxnet.incubator.apache.org/api/python/gluon/model zoo.html 
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存放 ， 像 下 面 这 种 结构 ， 且 所 有 图 片 预 处 理 为 宽 高 尺寸 相同 。 此 处 有 三 种 类 别 ， 分 别 
为 coat, dress 和 trousers， 在 这 三 个 目录 中 ， 可 放 对 应 真实 的 图 片 ， 如 coat/hdjk.jpg 和 
dress/893kd.jpg。 


train images 
一 一 coat 
I— dress 


L—— trousers 


然后 使 用 以 下 代码 实现 图 片 路 径 与 类 别 ID 的 一 一 对 应 ， 并 保存 在 一 个 叫 train.txt 的 
文件 中 。 执 行 python make_traintxt.py abspath/train images/ 即 可 得 到 结果 ， 注 意图 片 目 录 
路 径 后 需要 有 符号 “/”， 不 然后 期 Chainer 制作 Dataset 时 会 出 错 : 


# make traintxt.py 


16 


import os 

import sys 

import shutil 

from PIL import Image 
from tqdm import tqdm 


#labels 
labels = os.listdir(sys.argv[1]) 


#make dataset.txt: relative path classNo 
traintxt = open('train.txt','w') 
labelsTxt = open('labels.txt','w') 


for classNo, label in enumerate (labels): 
currentdir = os.path.join(sys.argv[1], label) 


images = [os.path.join(currentdir, EI .replace(sys.argv[1],'') 


for f in os.listdir(currentdir) ] 


17 
18 
19 
20 
21 
22 


print (label) 
labelsTxt.write (f'{label}\n') 
for image in tqdm (images): 
try: 
traintxt .write(f'{image}\t{classNo}\n') 


except BaseException as e: 
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23 print (image,e) 
24 continue 
25 


26 traintxt.close() 
27 labelsTxt.close() 


第 8 行为 获取 类 别 列表 , 第 15-16 行为 获取 某 一 特定 类 别 下 所 有 图 片 的 相对 路 径 ( 相 
对 于 train images) ， 第 19 行使 用 tqdm 获取 进度 条 展示 ， 第 21 行 写 入 图 片 相 对 路 径 及 
类 别 数字 ID， 另 外 同时 将 类 别 标签 保存 到 labels.txt 文件 中 。 通 过 以 下 命令 可 查看 对 应 
内 容 : 


$ cat labels.txt 
dress 

trousers 

coat 

$ tail train.txt 
coat/1014885 1.jpg 
coat/1036625 4.jpg 
coat/1080698 2.jpg 
coat/1091798 2.jpg 
coat/1081021 1.jpg 
coat/948571 1.jpg 
coat/1071584 3.jpg 
coat/1018408 2.jpg 
coat/1226635 2.jpg 
coat/1195450 2.jpg 


接 下 来 编写 模型 及 训练 的 文件 ， 代 码 如 下 : 


Nh NM NN NH NY NN N DN 


import chainer 
import chainer.links as L 
import chainer.functions as F 


from chainer.training import extensions 


class FineTune (chainer.Chain): 
def _ init (self, class labels=1000): 


super(FineTune, self). init () 


© c A o D bs Lä H 
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10 with 
AE 

2 

13 

14 

15 

16 def _ ca 
17 h 
18 h 
19 h 
20 retu 
21 

22 gpu id - 2 


23 max epochs - 
24 batchsize = 


self.init scope(): 

self.base L.ResNet50Layers () 
self.fc6 = L.Linear(None, 4096) 
self.fc7 = L.Linear(None, 1024) 


self.fc8 = L.Linear (None, class_labels) 


1I (3681F a)i 


self.base(x, layers-['pool5'])['pool5'] 


F.dropout (F.relu(self.fc6(h))) 
F.dropout (F.relu(self.fc7(h))) 
rn self.fc8 (h) 


10 
16 


25 classes numbers = 3 


26 

27 model 
28 model = L.Cl 
29 model.to gpu 


Fine 


30 opt = chaine 
31 opt.setup (mo 
32 model.predic 
33 

34 traintxt = r 


Tune (classes_numbers) 
assifier (model) 

(gpu_id) 
r.optimizers.Adam() 

del) 

tor.base.disable update() 


'/hdd/train/train.txt"' 


35 root - r'/hdd/train/clothes/train images/' 


36 


图 像 分 类 


37 datasets = chainer.datasets.LabeledImageDataset (traintxt, root) 


38 train ds，te 


st ds = chainer.datasets.split_dataset_random(datas 


ets,len(datasets)*8//10) 


39 

40 train iter = 
batchsize) 

Al test itar = 


chainer.iterators.Seriallterator(train ds, 


chainer.iterators.Seriallterator(test ds, 


batchsize, False, False) 


42 


43 updater = chainer.training.StandardUpdater(train iter, opt, 


device-gpu id) 
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44 trainer = chainer.training.Trainer(updater, (max epochs, 
'epoch'), out="clothes') 

45 

46 trainer.extend (extensions .LogReport ()) 

47 trainer.extend(extensions.Evaluator(test iter, model, 
device-gpu id)) 

48 trainer.extend(extensions.PrintReport(['epoch', 'main/loss', 
'main/accuracy', 'validation/main/loss', 'validation/main/accuracy', 
'elapsed time'])) 

49 


50 trainer.run() 


其 中 第 1-~4 行 导入 必要 的 包 ; 第 6-20 行 定义 神经 网 络 ， 第 11 行 会 使 用 ResNet50 
作为 基础 网 络 (这 里 可 以 换 为 ResNet 其 他 层 或 VGG 和 Inception 等 ) ， 再 加 入 几 个 全 
连接 层 ， 第 22-25 行为 一 些 常数 的 定义 ; 第 27-31 行为 实例 化 分 类 模型 ， 并 与 所 选 的 优 
化 算法 关联 起 来 ;第 32 行为 冻结 基础 网 络 参数 更 新 ， 所 以 网 络 只 会 更 新 fc6-8 的 参数 ; 
第 33-34 为 上 面 所 制作 的 标签 文件 与 图 片 父 目录 ; 第 37-38 行为 实例 化 Dataset， 并 按 
约 80% 的 比例 分 为 训练 集 和 测试 集 ，Chainer 会 读 取 路 径 类 别 对 应 文件 (traintxt) ， 并 
将 图 片 的 相对 路 径 与 绝对 路 径 结 合 起 来 ， 再 加 上 类 别 ID， 制 作成 一 个 Dataset; 第 40-41 
行 分 别 对 训练 集 和 测试 制作 迭代 器 ， 测 试 迭 代 器 不 需要 shuffle Fl repeat; 第 43 行将 
updater 二 级 主管 与 训练 迭代 器 和 优化 算法 关联 起 来 ;第 44 行将 trainer 主管 与 upater 二 
级 主管 和 其 他 信息 〈 最 大 轮 数 和 输出 目录 ) 关联 起 来 ， 第 Ae A8 行 分 别 添加 日 志 报 告 、 
进行 测试 集 测试 和 打印 指定 统计 信息 ， 第 50 行 就 是 主管 发 话 开始 运作 整个 项 目 。 

屏幕 输出 如 下 ， 由 于 样本 量 比较 大 ， 约 有 5 万 多 张 图 片 ，3 个 类 别 ， 所 以 训练 起 来 
速度 较 慢 ， 每 个 epoch 需要 约 500s， 在 此 只 粘贴 部 分 输出 : 


epoch main/loss main/accuracy validation/main/loss 


validation/main/accuracy elapsed time 


1 0.715356 OES on 0.570649 0.768498 502.006 
2 0.633724 0.752829 0.541441 0.812593 990.223 
3 0.605424 0.766204 0.555208 0.803905 1478.57 
4 0.582302 0.773274 0.483806 0.81633 1975.74 
5 0.570605 0.78063 0.504537 0.817265 2462.24 
6 0.564621 0.784699 0.500076 0.818479 2954.77 
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接 下 来 需要 各 位 读者 针对 自己 的 数据 集 进行 调 参 ， 包 括 学 习 率 leaming rate, epochs 
大 小 ， 优 化 算法 ， 加 入 BatchNormalization, Dropout 或 Early Stopping 等 操作 ， 或 者 调 
整 后面 几 层 的 网 络 类 型 与 神经 元 数量 ， 亦 或 调整 基础 网 络 base。 

读者 可 以 先 用 常规 的 数据 集 练 手 ， 如 Mnist, Fashion-Mnist, Cifar-10. Cifar-100 和 
猎狗 大 战 等 ， 对 于 ImageNet, 不 建议 读者 测试 ， 因 为 它 对 硬件 要 求 较 高 ， 训 练 耗 时 较 长 ， 
且 各 种 框架 都 有 预 训练 的 模型 。 

当 训 练 达到 满意 效果 后 ， 比 如 测试 集 上 的 accuracy 达到 93%， 且 无 明显 的 过 拟 合 现 
象 ， 就 可 以 保存 模型 ， 以 供 后 期 预测 或 推断 〈Inference) 使 用 。 预 测 主要 流程 : 使 用 网 
络 获得 对 应 图 片 输出 ， 作 softmax， 再 使 用 argmax 获取 概率 最 大 类 别 的 索引 ， 并 将 其 与 
类 别 映射 起 来 。 输 入 可 以 为 单 张 图 片 ， 也 可 以 是 多 张 图 片 。 


4.3 Inception 





4.3.1 Inception 介绍 


Inception 由 Google 公司 于 2014 年 提出 ， 并 取得 了 ILSVRC 分 类 竞赛 的 冠军 。VGG 
和 ResNet 关注 的 主要 是 网 络 深度 ， 而 Inception 则 从 宽度 方面 着 手 。 在 平常 的 网 络 中 ， 
卷 积 核 大 小 都 是 手动 确定 的 ，Inception 的 核心 思想 就 是 使 用 多 尺寸 卷 积 核 去 观察 输入 数 
据 ， 然 后 由 计算 机 选择 使 用 哪 种 尺寸 或 更 加 注重 哪 种 尺寸 。 

Inception V1 版 本 的 主要 结构 图 如 
图 4-3 所 示 。Inception 吸纳 了 Network In Soneat 
Network 的 思想 ， 使 用 1X1 的 卷 积 核 来 进 "A 
行 降 维和 升 维 操作 ; 同时 使 用 不 同 的 卷 积 
核 (1X1、3X3、5X5) 来 设置 不 同 的 感 
受 野 ， 让 网 络 看 到 不 同 层面 和 大 小 的 东西 ， SE? Se 
最 后 将 所 有 看 到 的 东西 串联 起 来 形成 该 层 T 














1x1 1x1 3x3 5x5 
































的 输出 。 然 后 利用 多 个 这 样 的 结构 ， 形 成 
一 个 大 的 网 络 。 








In 











4-3 Inception V1 主要 结构 
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Inception V2 则 使 用 了 小 卷 积 核 来 替换 大 卷 积 核 ， 比 如 两 个 3X3 的 卷 积 蔡 换 一 个 
5X5 的 卷 积 ， 这 样 使 得 卷 积 参 数 大 大 减少 ; 同时 对 于 3X3 的 卷 积 更 进一步 ， 提 出 了 非 
对 称 卷 积 操 作 ， 即 将 3X3 卷 积 转 换 为 1X3 和 3X1 两 个 卷 积 效果 的 又 加 ， 这 样 使 得 参 
数 进一步 减少 ， 如 图 4-4 所 示 。 





4-4 感受 野 与 非 对 称 卷 积 
另外 Inception V2 版 本 中 还 使 用 了 Batch Normalization (BN) 结构 ， 使 得 整个 网 络 
的 训练 更 加 容易 。 最 终 Inception V2 三 种 主要 的 网 络 层 结构 如 图 4-5 所 示 。 详 细 论 述 可 
参见 原 论文 。 
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4-5 Inception V2 主要 结构 


Inception V3 则 对 下 采样 过 程 中 的 特征 提取 作 了 组 合 ， 常 规 的 操作 一 般 是 卷 积 再 池 
化 或 池 化 后 再 卷 积 ，Inception V3 则 是 将 这 一 步 作 了 分 支 ， 使 得 网 络 变 宽 ， 结 构 如 图 4-6 
所 示 。 在 35X35 到 17X17 和 17X17 到 8X8 的 下 采样 过 程 中 会 用 到 这 种 特征 融合 结构 。 
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图 4-6 Inception V3 特征 融合 结构 


Inception V4 则 吸收 了 ResNet 的 思想 ， 传 统 ResNet 过 程 中 使 用 的 是 CNN 结构 ， 


那么 将 CNN 结构 换 成 Inception 的 基本 结构 则 形成 了 Inception V4 版 本 。 其 他 变种 还 有 
Inception-ResNet V1 和 Inception-ResNet V2 两 个 版 本 ， 鉴 于 篇 幅 ， 此 处 不 再 详 述 ， 可 参 
见 相关 的 原 论文 以 及 在 网 络 上 查看 对 它们 的 剖析 。 


Inception 系列 论文 : 


Inception V1: Going Deeper with Convolutions”® 


Inception V2: Batch Normalization: Accelerating Deep Network Training by Reducing 


Internal Covariate Shift" 


Inception V3: Rethinking the Inception Architecture for Computer Vision" 


Inception V4: Inception-v4, Inception-ResNet and the Impact of Residual Connections 


on Learning? 


4.3.2 Keras 版 Inception V3 川菜 分 类 


目前 深度 学 习 在 视觉 领域 的 应 用 和 教程 也 非常 多 ， 但 大 多 都 基于 常规 数据 集 ， 可 以 


轻易 地 通过 网 络 获取 ， 如 Mnist、FashionMnist、Cifar 等 ， 要 不 就 是 非常 大 的 数据 集 如 
ImageNet 这 类 。 


是 否 可 以 做 点 有 意思 的 图 像 分 类 呢 ? 请 看 以 下 分 类 。 

e c6 X: KAS. BAA, HE. AAA. 

e WRK: 孙悟空 、 孙 悟 饭 、 贝 吉 塔 等 。 

e 名 人 类 : MER HMMM, BRERA. AHMAR SHAFT. 


http://arxiv.org/abs/1409.4842 


http://arxiv.org/abs/1502.03167 
https://arxiv.org/abs/1512.00567 
https://arxiv.org/abs/1602.07261 
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这 里 选择 “ 吃 货 类 ”， 那 么 马上 就 会 面临 一 个 问题 : 数据 怎么 获取 ? 为 了 节省 时 间 ， 
此 处 数据 是 直接 从 百度 下 载 。 
整个 文件 目录 如 下 : 


chuancai classification/ 


[—— train pY 


-— down imgs.py 


L—— chuancai.txt 


其 中 chuancai.txt 定义 了 图 像 下 载 的 类 别 ， 每 个 类 别 一 行 。 


$ cat chuancai.txt 
RE DR 

回锅 肉 

宫 保 鸡 丁 

盐 烧 白 

HAA 

夫妻 肺 片 

蒜泥 白肉 

Zum 

水 煮 鱼 


down imgs.py 会 读 取 chuancai.txt 的 类 别 ， 然 后 利用 百度 下 载 ， 默 认 每 个 类 别 会 尽 
力 〈 因 为 出 错 就 会 跳 过 ) 下 载 1000 张 (numIMGS = 1000， 可 自行 调整 ) AH, FR 
的 图 片 会 使 用 OpenCV 进行 简单 过 滤 ， 保 证 图 片 没 问题 ， 并 填充 为 方形 尺寸 ， 缩 放 到 
600X 600 大 小 《一 般 训 练 图 像 分 类 模型 的 时 候 都 会 要 求 输入 尺寸 一 致 ， 高 X 宽 X 通 
道 数 ， 有 的 框架 会 默认 做 这 些 操 作 ， 而 有 的 不 会 ， 但 实质 过 程 都 需要 这 一 步 ) ; 然后 按 
9:1 的 比例 分 为 训练 集 和 测试 集 ，train 和 test， 所 有 的 文件 会 保存 在 IMGS (这 个 目录 变 
HW relative path， 可 以 自行 修改 ) 目录 下 。 此 文件 主要 用 到 的 库 有 : requests、opencv- 
contrib-python、multiprocessing。 文 件 内 容 如 下 : 


import os 


import re 


1 

3 import sys 
4 import cv2 
5 


import glob 


o A e D UNEO wo OO A 





o 
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N NN 
NFO 


N N 
心 0 


Q Q NNNM DN 
POW oO A o uU 


be BWW d WW WwW Ww 
NFP OW OO A o 0 50 HM 


import random 
import shutil 
import urllib 
import argparse 
import requests 
from tqdm import tqdm 
from multiprocessing import Pool 
relative path = r'IMGS' 
ste table = { 
OE TRS 
EE 
E EE E 
) 
char table = 
wq, 
kt "bU, 
E 
ris dus 
"Q's ren, 
NEE GE 
te Gen: 
Vp Bits 
EE 
ECK 
GE 
E 
"a's mn, 
SSES 
Ge Aen, 
DE DE 
'q': 'q', 
vo Ort, 
a UE 
"pi: "ET, 
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43 et EE 
44 fees ny E 
45 foe hr 
46 AG Bee bl 
47 Uto re ea 
48 EE 
49 E E Be 
50 Ure en UY 
DIE E ee 
52 DO 
53 a a: 
54 EE Oe 
55 pita Os 
56 } 

57 


58 char_table = {ord(key): ord(value) for key, value in char_ 


table.items () } 


59 

60 def decode (url): 

61 for key, value in str_table.items(): 

62 url = url.replace(key, value) 

63 return url.translate(char_table) 

64 

65 def buildUrls(word, max_num) : 

66 word = urllib.parse. quote (word) 

67 url = r "http://image.baidu.com/search/acjson?tn- 


resultjson_com&ipn=rj &ct=201326592&fp=result&queryWord={ word} &cl= 


2&1m--1&ie-utf-8&oe-utf-8&st--1&ic-0&word-(word)&face-0&istype-2nc- 


l&pn-(pn)]&rn-1000 " 


68 urls = (url.format (word=word, pn-str(x)) for x in range(0, 


max_num, 60) ) 


69 return urls 

70 

71 
GEET 
WS 


74 def resolveImgUrl (html): 
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75 
76 
D 
78 def 
79 
80 
81 
82 
83 
84 
85 
86 
87 
88 
89 
90 
91 
92 
93 def 
94 
95 
96 
9T 
98 
99 
100 
101 
102 
(nt£- 8") 
103 
104 
105 
106 
107 
108 
109 
110 
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imgUrls = [decode(x) for x in re url.findall (html)] 


return imgUrls 


downImgs (imgUrl, dirpath, imgName, imgType) : 
filename = os.path.join(dirpath, imgName) 
try: 
res = requests.get(imgUrl, timeout-15) 
if str(res.status code)[0] == '4': 
print(str(res.status code), ":", imgUrl) 
return False 
except Exception as e: 
print(f' 抛 出 异常 : {ijmgUrl}') 
print (e) 
return False 
with open(filename + '.' + imgType, 'wb') as f: 
f.write(res.content) 


return True 


downword (word): 
word dir = os.path.join(sys.path[0], relative path,word) 


os.makedirs (word dir, exist ok-True) 


index = 0 


numIMGS = 1000 # Max images to be downloaded per keyword 


urls = buildUrls (word, numIMGS) 
for url in urls: 


html = requests.get(url, timeout-10).content.decode 


imgUrls = resolveImgUrl (html) 
for url in imgUrls: 
try: 
if downImgs(url, word dir, str(index + 1), 'jpg'): 
index += 1 
print(f "{word}:\t{index} 张 ") 
if index == numIMGS:break 


except BaseException as e: 
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JEE print (url,e) 
112 continue 
TES 
114 def del bad(root): 
sh 
116 imgs = glob.glob(os.path.join (root, '*/*.jpg'), recursive-True) 
117 
118 for img in tqdm(imgs): 
119 im = cv2.imread (img) 
120 if im is None: 
123 print (img) 
22 os.remove (img) 
23 continue 
124 h,w,_ = im.shape 
25 if h>w: #top, bottom, left, right 
26 sq = cv2.copyMakeBorder (im, 0,0, (h-w) //2, h-w- (h-w) 
//2,cv2.BORDER CONSTANT, value=(255, 255,255) ) 
21 elif h<w: #top, bottom, left, right 
28 sq = cv2.copyMakeBorder (im, (w-h) //2,w-h- (w-h) 
//2,0,0,cv2.BORDER CONSTANT, value= (255, 255, 255) ) 
29 
30 im = cv2.resize(im, (600, 600), interpolation-cv2. 
INTER CUBIC) 
SS 
132 cv2.imwrite(img, im) 
33 
34 def split (root): 
135 
136 subdirs = os.listdir(root) 
37 random. shuffle (subdirs) 
38 
139 for subdir in subdirs: 
140 sub imgs = os.listdir(os.path.join(root, subdir) ) 
141 # Train 90% 
142 N = len(sub_imgs) *9//10 
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143 
144 
145 
146 
147 
48 
49 
50 
Si 
52 
53 
154 
55 
156 
Tom 
58 
59 
60 
61 
62 
63 
64 
65 


(downword, words) )): 


66 
67 
68 
169 
170 
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train = os.path.join(root,'train', subdir) 


test 


= os.path.join(root,'test', subdir) 


os.makedirs (train, mode=00777, exist_ok=True) 


os.makedirs (test, mode=00777, exist_ok=True) 


for 


for 


sub img in tqdm(sub imgs[:N]): 
shutil.move(os.path.join(root, subdir, sub img), train) 


sub img in tqdm(sub imgs[N:]): 
shutil.move(os.path.join(root, subdir, sub img), test) 


os.rmdir(os.path.join(root, subdir)) 


name 


== ' main ': 





with open(sys.argv[1],'r') as f: 


words = (line.strip() for line in f.readlines()) 


print (f'Keyword: {words}') 


with Pool() as pool: 


with tqdm(desc-'Downloading Images') as pbar: 


for i, _ in tqdm(enumerate (pool.imap unordered 


pbar .update () 


del bad(relative path) 


split(relative path) 


然后 执行 python down. imgs.py chuancai.txt 就 会 开始 下 载 图 片 ， 其 屏幕 输出 如 图 4-7 


所 示 。 


这 里 下 载 了 大 约 7800 张 图 片 ， 类 别 为 前 面 所 述 菜 名 。 下 载 结束 后 可 以 每 个 类 别 单 
独 查 看 ， 这 里 直接 合并 在 一 起 显示 ， 如 图 4-8 所 示 。 
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图 4-7 图 片 下 载 屏幕 输出 
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图 4-8 图 片 概览 与 不 符 的 样本 图 片 示 侦 
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查看 过 程 中 会 发 现 很 多 不 适 于 训练 的 图 片 ， 即 不 是 真正 所 对 应 类 的 图 片 ， 如 图 4-8 
所 展示 的 图 片 ， 水 者 鱼 的 文字 与 活 鱼 等 ， 而 适 于 训练 的 则 是 装 在 碗 里 做 好 的 、 可 以 吃 的 
水 者 鱼 。 如 果 想 要 获取 更 好 的 分 类 效果 ， 这 些 应 该 需要 剔除 ， 限 于 篇 幅 ， 此 步 略 过 ， 这 
里 主要 示范 整个 流程 。 

接 下 来 编写 train.py 训练 文件 代码 。 


d 
2 
3 
4 
5 
6 
7 
8 
9 


10 
ER 
12 
ES. 
14 


import matplotlib.pyplot as plt 


import os 
os.environ["CUDA VISIBLE DEVICES "] = "1 " 


import tensorflow as tf 
config = tf.ConfigProto() 


config.gpu options.allow growth = True 
from tensorflow import keras 
from tensorflow.python.keras import backend as K 


K.set session(tf.Session (config-config) ) 


from tensorflow.python.keras.applications.inception_v3 import 


Inceptionv3 


TS 


from tensorflow.python.keras.preprocessing.image import 


ImageDataGenerator 


以 上 代码 中 ， 第 1~15 行为 设置 GPU 按 需 分 配 显 存 ， 接 着 导入 各 种 需要 的 模块 ， 主 
要 包括 InceptionV3 主干 网 络 和 ImageDataGenerator. ImageDataGenerator 主要 用 于 读 取 
图 片 文件 夹 ， 每 个 子 目录 名 作为 类 别 标签 ， 这 种 方法 对 于 后 期 各 种 增 量 或 换 数 据 集 操作 
非常 友好 。 另 外 也 可 以 导入 其 他 网 络 模块 ， 如 DenseNet121 和 Xception 等 ， 方 便 切换 不 


同 的 主干 网 络 。 
16 
17 train dir = '/hdd/chuancai/train' 
18 test dir = '/hdd/chuancai/test' 
19 image size = 224 
20 class numbers = len(os.listdir(train dir)) 
21 
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22 if os.environ["CUDA VISIBLE DEVICES "]: 
print('Using GPU') 


23 
24 
25 
26 
2 


input shape = (image size, image size, 3) 


else: 


print('Using CPU') 


input shape = (3, image size, image size) 


第 17-27 行 定义 了 各 种 常量 ， 包 括 训练 集 和 测试 集 所 在 的 目录 ， 图 片 输入 尺寸 的 大 
Jv GPU/CPU 使 用 情况 等 。 


28 


29 Backbone = InceptionV3 (include top=False, weights-'imagenet', 


input shape=input shape) 


30 


39 
40 


for layer in Backbone.layers[:110]: 


layer.trainable = 


model 


model. 


model. 


model 
model 


model 


— keras.models.S 


add (Backbone) 

add (keras.layers 
.add (keras .layers 
-add (keras.layers 


.add (keras.layers 


activation='softmax')) 


41 


42 model.summary () 


False 


equential () 


.Flatten()) 
.Dense(1024, activation-'relu')) 
-Dropout (0.5)) 


.Dense(class numbers, 


第 29-42 行 定义 了 网 络 模型 。 此 处 的 主干 网 络 使 用 的 是 mceptionV3， 并 去 掉 最 后 一 
层 ， 使 用 了 在 ImageNet 上 训练 了 的 参数 作为 初始 参数 。 第 31-32 行 表示 对 主干 网 络 部 
分 层 的 参数 进行 冻结 ， 不 参与 训练 更 新 ， 而 110 层 后 面 的 参数 会 参与 训练 更 新 。 然 后 第 
36-40 行使 用 Sequential 模式 构建 真正 的 网 络 ， 逐 一 将 各 层 加 入 网 络 结构 中 。 这 里 使 用 
了 拉平 操作 (第 37 行 ) ， 再 加 入 全 连接 层 ， 将 拉平 的 结果 映射 为 1024 长 度 的 输出 ; HE 
着 使 用 Dropout 技术 ， 再 加 上 全 连接 层 ， 将 输入 映射 为 类 别 数 长 度 的 输出 ， 并 作 softmax 
操作 ， 完 成 整个 网 络 从 输入 到 输出 的 变换 。 最 后 ， 使 用 summary 方法 查看 整个 网 络 模型 


的 结构 。 


43 
44 
45 
46 
47 
48 
49 
50 
SL 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 
69 
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train datagen = ImageDataGenerator ( 
rescale-1./255, 
rotation range-45, 
width shift range-0.2, 
height shift range-0.2, 
horizontal flip-True, 


fill mode-'nearest') 
validation datagen = ImageDataGenerator (rescale-1./255) 


train generator = train datagen.flow from directory( 
train dir, 
target size-(image size, image size), 
batch size-64, 
class mode-'categorical') 


图 像 分 类 


validation generator = validation datagen.flow from directory( 


test dir, 

target size-(image size, image size), 
batch size-64, 

class mode-'categorical', 
shuffle-False) 


print('-'*60) 
print(train generator.class indices) 
print('-'*60) 


代码 第 44-69 行 主要 是 制作 训练 样本 生成 器 和 测试 样本 生成 器 。 首 先 针对 训练 集 
定义 了 数据 增 广 操作 旋转、 翻转 和 平移 ， 并 将 输入 值 域 缩放 为 [0.1] 范围 ， 然 后 使 用 
flow from directory 方法 传 入 生成 器 所 使 用 的 图 片 目 录 、 图 片 目 标 大 小 、 批 大 小 以 及 分 
类 模式 。 因 为 此 处 有 9 类 ， 故 使 用 的 分 类 模式 选择 categorical， 进 行 one-hot 编码 ， 如 果 
只 有 两 类 ， 则 应 该 使 用 binary。 然 后 对 测试 集 做 类 似 操 作 ， 不 过 没有 数据 增 广 和 shuffle 
操作 。 第 68 行 输出 类 别 与 类 别 ID 对 应 的 字典 ， 可 供 后 续 真 正 测试 对 应 。 


70 
71 


checkpoint = keras.callbacks.ModelCheckpoint ('chuancai res50 
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v2.h5', verbose-1, monitor-'val acc',save best only-True, mode-'auto') 
72 model.compile(loss-'categorical crossentropy', 
73 optimizer-keras.optimizers.SGD(lr-1e-4, 


momentum-0.9), 


74 metrics-['acc']) 

£5 

76 H = model .fit_generator ( 

TI train_generator, 

78 steps per epoch-train generator.samples/train generator. 


batch size , 


79 epochs-20, 
80 validation data-validation generator, 
81 validation steps-validation generator.samples/validation | 


generator.batch size, 


82 callbacks-[checkpoint], 
83 verbose-1) 
84 


代码 第 71-83 行 主要 设置 了 回调 函数 、 模 型 编译 和 进行 模型 训练 。 回 调 函 数 实 质 上 
就 是 监控 ， 当 某 件 事 发 生 的 时 候 就 采取 相应 的 操作 ， 比 如 此 处 71 行 表示 监控 val acc 这 
个 变量 ， 训 练 完 一 次 的 时 候 将 这 次 的 结果 与 上 一 次 做 对 比 ， 然 后 保存 最 好 结果 对 应 的 模 
型 。 然 后 就 是 模型 编译 ， 即 将 损失 函数 、 优 化 算法 和 监控 指标 等 关联 起 来 ， 这 些 读 者 可 
以 自行 选择 和 调整 对 应 参数 。 最 后 使 用 fit generator 进行 训练 ， 参 数 主 要 包括 训练 生成 
器 、 测 试 生成 器 和 回调 函数 。steps_per_epoch 表示 每 轮 需要 执行 多 少 步 ， 一 般 等 于 总 样 
本 大 小 除 以 批 大 小 ，epochs 则 表示 一 共 要 训练 多 少 轮 。 回 调 函 数 就 是 在 第 71 行 设置 的 
checkpoint， 其 实 也 可 以 添加 如 Early Stopping 等 的 操作 ， 有 兴趣 的 读者 可 自行 尝试 。 


85 

86 # save the accuracy and loss curves 

87 epochs = range (len(H.history['acc'])) 

88 

89 plt.figure () 

90 plt.plot(epochs, H.history['acc'], "bi, label='Training acc") 

91 plt.plot (epochs, H.history['val acc'], 'r', label-'Validation 
acc?) 


92 plt.title('Training and validation accuracy") 
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93 plt.legend() 

94 plt.savefig('acc chuancai.jpg') 

95 

96 plt.figure() 

97 

98 plt.plot(epochs, H.history['loss'], "bi, label-'Training Loss") 
', label-'Validation 


99 plt.plot(epochs, H.history['val loss'], 'r 


loss') 


100 plt.title('Training and validation loss") 
101 plt.legend() 

102 plt.savefig('loss chuancai.jpg') 

103 


第 85-101 行 主要 就 是 对 损失 和 准确 率 作 图 ， 进 行 直观 对 比 。 执 行 训练 后 ， 屏 幕 输 
出 如 下 : 




















Using GPU 

Layer (type) Output Shape Param # 
inception v3 (Model) (None, 5, 5, 2048) 21802784 
flatten 1 (Flatten) (None, 51200) 0 

dense 1 (Dense) (None, 1024) 52429824 
dropout 1 (Dropout) (None, 1024) 0 
dense 2 (Dense) (None, 9) 9225 





Total params: 74,241,833 
Trainable params: 71,639,049 
Non-trainable params: 2,602,784 





Found 6930 images belonging to 9 classes. 


Found 778 images belonging to 9 classes. 
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(BAA ': 0, "äh: 1, "RST: 2, "KAM: 3, "pr: 4, 
"up, 5, BAA ': 6, 蒜泥 白肉 ': 7, ' RAZA CI oi 









Epoch 1/20 
7087108 TPAS = A s = oas a056 E 





acc: 0.4740 
Epoch 00001: val_acc improved from -inf to 0.59254, saving model to 


chuancai_res50_v2.h5 


==] - 96s 880ms/step - loss: 


Epoch 2/20 
08/ 
acc: 0.7186 

Epoch 00002: val acc improved from 0.59254 to 0.67866, saving model 


>.] - ETA: Os - loss: 0.8469 - 





to chuancai res50 v2.h5 
09/ 
0.8485 — acc: 0.7185 — val loss: 1.3231 — val acc: 0.6787 






==] - 90s 825ms/step - loss: 





==>.] - ETA: Os - loss: 0.6783 - 
ACC Olio 

Epoch 00003: val_acc improved from 0.67866 to 0.68252, saving model 
to chuancai res50 v2.h5 

09/ 
076769 — acc: 0:7759 = yal loss: 1:5256 = val acc: 0.6825 












==] - 91s 833ms/step - loss: 


Epoch 18/20 








108/108 [= >.] - ETA: Os - loss: 0.1621 - 
aco: 0-9974 

Epoch 00018: val_acc did not improve 

109/108 [==== ==] - 139s 1s/step - loss: 


0.1624 = acc: 0:9574 = val loss: 3.2498 = val acc: 0.7378 
Epoch 19/20 


= ETA: 0a loss 0.1408 = 





acc: 0:9579 
Epoch 00019: val_acc did not improve 
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109/108 [==============================] - 97s 894ms/step - loss: 
0.1400 - acc: 0.9580 - val loss: 3.0305 - val acc: 0.7468 

Epoch 20/20 

108/108 [============================>,] - ETA: 0s - loss: 0.1371 - 
aces 079590 

Epoch 00020: val acc did not improve 

109/108 [===] = 91s 836ms/step - loss: 
0-1364 — acc? 0:9591. — val loss 3-1812 ~ val accs 0.7455 





可 以 看 到 ， 目 前 在 测试 集 上 的 准确 率 已 经 超过 78%， 笔 者 曾经 训练 到 过 83%, (AN 
了 直观 ， 可 以 查看 loss 和 accuracy 的 变化 曲线 ， 如 图 4-9 所 示 。 


Training and validation loss. 


— Training loss 10 
一 validation loss 





Training and validation accuracy 








— Training acc 
— Validation acc. 




















o 20 D 60 80 100 o 20 D 60 D 100 


图 4-9 loss fll accuracy 变化 曲线 


从 以 上 曲线 可 以 看 出 ， 约 从 第 10 轮 开始 ，loss 在 训练 集 和 测试 集 上 的 表面 差距 越 来 
越 大 ， 而 accuracy 在 训练 集 上 一 直上 升 ， 在 测试 集 上 变化 不 大 。 整 个 网 络 就 渐渐 出 现 了 
过 拟 合 现象 ， 那 么 此 时 就 可 以 使 用 常用 的 防 过 拟 合 手段 来 进行 调整 ， 读 者 可 以 自行 尝试 。 

假设 此 时 模型 已 经 满足 需求 ， 那 么 就 可 以 将 模型 运用 起 来 进行 预测 了 。 预 测 文件 代 
人 码 如 下 : 


import os 

import sys 

from PIL import Image, ImageDraw, ImageFont 
import glob 
os.environ["CUDA VISIBLE DEVICES "] = "2 " 


YAU WNB 


import tensorflow as tf 
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ES 
16 
aM 
18 


config = tf.ConfigProto() 
config. gpu_options.allow_ growth = True 


import numpy as np 
from tensorflow import keras 
from tensorflow.python.keras import backend as K 


K.set_session (tf-Session (config=config) ) 


from tensorflow.python.keras.models import load_model 
from tensorflow.python.keras.preprocessing import image 
from tensorflow.python.keras.applications.inception_v3 import 


preprocess_input 


19 
20 
2m 
22 
23 
24 
25 
26 
27 
28 
29 
30 
3E 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 


def read_img(img_path) : 
EEN 
img = image.load img(img path, target size-(224,224)) 
except Exception as e: 
print (e) 
img = image.img to array (img) 
img = np.expand dims(img, axis=0) 
# img = preprocess_input (img) 
D img = np.squeeze (img) 
return img/255 


def draw save(img path, label, out-'/tmp'): 





img = Image.open(img path) 
_,classid,imgf = img path.rsplit(r'/',2) 
os.makedirs (os.path.join(out,classid), exist ok-True) 
if img is None:return None 
draw = ImageDraw.Draw (img) 
font = ImageFont.truetype ("huawenxingkai.ttf",60) 
draw.text((10,10), label, (10,10,10), font-font) 
img.save (os.path.join(out,classid,imgf)) 
if name == ' main ': 
model = load model (sys.argv[1]) 
labels = {' 回锅 肉 ': 0, ' 夫妻 肺 片 ' 1, ' 宫 保 鸡 丁 ': 2, "KAM: 


盐 烧 白 ': 4, "San: 5, 'RRA': 6, "Zon: 7, ' REEN ': 8} 


44 


labels = {str(v):k for k,v in labels.items()] 
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45 for subdir in glob.glob(sys.argv[2]*'/*'): 

46 for img path in glob.glob(subdirt'/*.jpg") [:24]: 

47 img = read img(img path) 

48 pred - model.predict (img) [0] 

49 #print (pred.shape) 

50 index = np.argmax (pred) 

SE print (index, labels [str (index) ]) 

52 draw save(img path, labels [str (index)], out-'/tmp/ 


chuancai/') 


其 中 第 1-18 行 导入 必要 的 模块 ， 并 进行 GPU 使 用 设置 ， 第 20-29 行 主要 是 进行 
读 图 片 的 操作 ， 注 意 最 后 要 除 255， 这 是 保证 图 片 输入 和 训练 模型 时 处 理 方式 一 样 。 第 
31-39 行 定 义 了 作 图 函数 ， 主 要 就 是 将 图 片 预测 的 分 类 显示 在 图 片上 ， 并 保存 到 一 个 输 
出 目录 中 。 第 41~52 行 会 进行 模型 加 载 ， 类 别 与 类 别 ID 对 应 的 字典 设 定 〈 由 训练 文件 
第 68 行 获取 ), 第 46 行 表示 每 个 类 测试 24 张 图 片 , 然后 就 是 遍历 目录 进行 菜品 分 类 预测 。 

执行 python predict.py chuancai res50_v2.hs5 /hdd/chuancai/test 进行 测试 。 表 4-1 是 部 
分 结果 ， 可 以 看 出 还 是 有 很 多 识别 错误 的 ， 比 如 盐 煎 肉 与 回锅 肉 之 间 容 易 混淆 。 

表 4-1 菜品 预测 结果 
/hdd/chuancai//35 VE AA /hdd/chuancai//[] #4 DN /hdd/chuancai//k Rf EN 

0 回锅 肉 0 回锅 肉 0 回锅 肉 
0 回锅 肉 0 回锅 肉 5 Em 
5 盐 煎 肉 5 SERIA] 0 回锅 肉 
7 东 泥 白肉 0 回锅 肉 2 宫 保 鸡 丁 
EES 0 回锅 肉 0 回 
7 RE EAT 0 回锅 肉 5 dk Ri 
7 RE EA 0 回锅 肉 0 回 























7 蒜泥 白肉 0 回锅 肉 5 sit 
7 蒜泥 白肉 0 回锅 肉 0 回锅 肉 





/hdd/chuancai//7K 3& f& /hdd/chuancai// $k% Fi /hdd/chuancai//#} Z& V 
3 水 者 鱼 5 盐 煎 肉 6A 
3 ka fn 2 宫 保 鸡 丁 1 夫妻 肺 片 
3 水 者 鱼 5 盐 煎 肉 6 HA 
3 水 者 鱼 4 盐 烧 白 6 HA 
3 水 者 鱼 3 水 煮 鱼 6 RA 
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/hdd/chuancai// 水 者 鱼 /hdd/chuancai// 盐 烧 /hdd/chuancai//f) 2& Vi 
3 水 者 鱼 4 盐 烧 白 6 HAR 
3 Ka fü 4 盐 烧 白 
3 水 煮 鱼 5 盐 煎 肉 
3 cf 3 fü. 


Ahdd/chuancai// 麻 婆 豆腐 Ahdd/chuancai// 夫 妻 肺 片 /hdd/chuancai// 宫 保 鸡 丁 
SMEUR 1 夫妻 肺 7 蒜泥 白肉 
8 麻 婆 豆腐 1 夫妻 肺 上 2 BRAT 
8 RIE Jg 0 回锅 2 宫 保 鸡 丁 
BEI 1 夫妻 肺 2 宫 保 鸡 丁 
2 宫 保 鸡 本 En ok 
8 麻 婆 豆腐 EI H 2 宫 保 鸡 丁 
8 麻 婆 豆腐 < 妻 肺 月 2 宫 保 鸡 丁 
8 REST d Seet? 
S REES : 妻 肺 2 宫 保 鸡 丁 









































但 以 上 的 方式 只 能 看 到 文字 ， 
结果 ， 如 图 4-10 所 示 。 








A410 部 分 菜品 分 类 结果 展示 (一) 














114 














第 4 章 图 像 分 类 




















从 图 4-10 可 以 看 出 ， 有 的 图 片 本 身 就 是 有 问题 的 ， 比 如 第 2 排 第 2 张 的 夫妻 肺 片 。 
而 从 图 4-11 则 可 以 看 到 烧 白 系列 中 的 第 3 张 、 第 4 张 、 第 5 张 分 别 被 预测 为 水 者 鱼 、 水 
煮 鱼 和 盐 煎 肉 ， 这 种 情况 人 类 也 不 会 将 其 与 烧 白 联 系 起 来 ， 而 第 6 张 则 有 三 个 菜 ， 人 情况 
相对 复杂 ， 但 分 错 可 以 预期 ， 对 于 回锅 肉 系列 ， 第 2 HESS 2 张 预测 为 忒 泥 白 肉 ， 这 确实 
分 错 了 ， 但 对 于 第 4 张 ， 如 果 模 型 将 其 预测 为 盐 煎 肉 ， 笔 者 认为 也 没 多 大 问题 







































































图 4-11 部 分 菜品 分 类 结果 展示 (二) 




















秆 于 这 些 结果 ， 可 以 从 图 片 出 发 ， 去 理解 预测 失败 到 底 是 模型 的 问题 还 是 其 他 外 因 。 
如 果 图 片 本 身 不 对 ， 那 么 模型 可 能 会 被 训练 带 偏 或 测试 表现 不 佳 ， 此 时 就 应 该 将 训练 集 
清洗 得 更 加 干净 。 对 于 人 类 来 说 ， 也 有 很 多 情况 是 不 能 分 辨 的 ， 那 么 给 出 的 训练 样本 就 
可 能 出 问题 ， 这 时 模型 的 预测 效果 也 会 受到 影响 。 
另外 读者 可 修改 类 别 文件 的 内 容 ， 这 样 就 可 以 对 名 人 、 动 漫 (龙珠 超 、 海 贼 王 、 火 
影 和 死神 等 ) 、 花 草 、 面 食 〈 这 个 难度 应 该 较 大 ) 等 进行 图 像 分 类 了 ,， 相信 读者 会 找到 
己 感 兴趣 的 图 像 分 类 内 容 。 
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4.4 Xception 





4.4.1 Xception 简 述 


Xception “的 作者 是 Keras 的 开发 者 Francois Chollet. Xception 意 为 Extreme Inception, 
表示 将 Inception 原理 发 挥 到 极致 。 

Inception 主要 是 让 同 层 网 络 更 宽 ， 给 予 模型 自己 选择 卷 积 核 大 小 的 权利 ， 如 5x5. 
3X3, 1X1 或 作 MaxPooling 操作 ， 并 利用 1X 1 卷 积 进行 通道 方向 的 降 维 ， 解 决 计算 瓶 
Ji, Inception V2 改进 版 本 中 使 用 两 个 3X3 卷 积 蔡 换 5X 5 卷 积 ， 并 使 用 了 非 对 称 的 卷 
积 操作 ，Inception V3 版 本 中 则 为 分 支 结 构 ，Inception V4 版 本 中 使 用 了 残 差 概念 ， 得 到 
了 Inception-ResNet 混合 结构 。 

但 这 些 卷 积 操作 在 空间 和 通道 方向 是 耦合 的 ， 即 在 处 理 一 个 感受 野 时 ， 会 同时 考虑 
所 有 通道 〈 比 如 初始 的 RGB 三 通道 ) Xception 作者 在 此 提出 疑问 : 赁 什么 得 同时 考 
虑 平面 空间 (2D) 和 通道 信息 ? 

要 知道 ， 解 决 一 个 问题 ， 通 常会 做 一 些 假 设 ， 然 后 基于 这 些 假 设 来 设计 解决 方案 ， 
那么 如 果 出 现 假设 错误 会 怎样 一 一 遇 到 这 种 情况 最 多 只 能 解决 部 分 问题 。 

Inception 使 用 1X 1 卷 积 将 输入 映射 到 多 个 更 小 的 空间 ， 对 每 个 子 空间 再 进行 卷 积 
操作 ， 而 Xception 则 直接 为 每 个 输入 通道 进行 单独 空间 映射 ， 再 使 用 1X1 卷 积 获取 跨 
通道 信息 ， 即 一 个 通道 向 可 分 的 卷 积 。 

实验 证 明 此 方法 有 效 ， 在 ImageNet1000 类 上 ，Xception 表现 略 优 于 Inception V3, 
但 在 17000 类 的 分 类 任务 上 表现 会 好 得 多 ， 其 移动 版 应 用 便 是 MobileNet。 


4.4.2 Keras 版 本 Xception 使 用 示例 


下 面 使 用 TensorFlow 中 的 Keras 进行 简单 示例 。 将 训练 和 测试 的 图 片 按 以 下 目录 结 
构 存 放 ， 每 个 子 目录 下 放 对 应 的 图 片 ， 但 这 里 不 需要 所 有 图 片 尺寸 相同 ，Keras 训练 和 
测试 过 程 中 会 作 resize 处 理 。 这 里 有 24 类 ， 都 是 一 些 商品 ， 读 者 可 按 这 种 格式 存放 自己 
的 数据 集 ， 这 里 的 数据 集 只 是 展示 存放 结构 ， 不 会 公开 此 数据 集 ， 希 望 读 者 理解 。 


14 https://arxiv.org/abs/1610.02357 
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编写 以 下 训练 代码 : 


FERE EU 


import os 
os.environ["CUDA VISIBLE DEVICES "] = "0 " 


import tensorflow as tf 
config.gpu options.allow growth = True 


1 
2 
3 
4 
5 config = tf.ConfigProto() 
6 
T 
8 from tensorflow import keras 
9 set_session = keras.backend.set_session 
10 
EL 


12 ImageDataGenerator 


set session(tf.Session (config=config) ) 


keras.preprocessing.image.ImageDataGenerator 
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13 load img = keras.preprocessing.image.load img 
14 

15 train dir = '/image data/train' 

16 validation dir = '/image data/val' 


17 image size - 299 

18 class numbers = len(os.listdir(train dir)) 

19 

20 Xception - keras.applications.xception.Xception 

SE 

22 X conv = Xception(include top-False, weights-'imagenet', input ` 
shape-(image size, image size, 3)) 

23 


24 for layer in X conv.layers[:]: 


25 layer.trainable - False 

26 

27 model = keras.models.Sequential () 
28 


29 model.add(X conv) 

30 model.add(keras.layers.Flatten()) 

31 model.add(keras.layers.Dense(1024, activation-'relu')) 
32 model.add(keras.layers.Dropout (0.5)) 

33 model.add(keras.layers.Dense(class numbers, 


activation-'softmax')) 


34 

35 model.summary () 

36 

37 train_datagen = ImageDataGenerator ( 
38 rescale=1./255, 

39 rotation_range=20, 

40 width_shift_range=0.2, 

41 height_shift_range=0.2, 

42 horizontal flip-True, 

43 fill mode-'nearest') 

44 

45 validation datagen - ImageDataGenerator (rescale-1./255) 
46 


47 train generator = train datagen.flow from directory( 
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48 train dir, 

49 target size-(image size, image size), 

50 batch size-50, 

br class mode-' categorical') 

De 

53 validation generator = validation datagen.flow from directory( 
54 validation dir, 

55 target_size=(image_size, image_size), 

56 batch_size=10, 

57 class_mode='categorical', 

58 shuffle=False) 

59 

60 

61 model.compile(loss-'categorical crossentropy', 

62 optimizer-keras.optimizers.RMSprop(lr-1e-4), 
63 metrics-['acc']) 

64 

65 H = model.fit generator( 

66 train generator, 

67 steps per epoch-2*train generator.samples/train 


generator.batch size , 


68 epochs-10, 
69 validation data-validation generator, 
70 validation steps-validation generator.samples/validation | 


generator.batch size, 
m verbose-1) 
72 
73 model.save('da last4 layers.h5') 


首先 以 上 代码 第 1~10 行 对 GPU 使 用 进行 设置 ， 第 12-18 行 导 入 部 分 包 ， 设 置 训练 
集 和 测试 集 目录 ， 以 及 Xcetpion 所 接收 的 图 片 尺 寸 ， 最 后 收集 训练 类 别 数 ， 以 供 后 面 网 
络 定义 最 后 的 全 连接 层 使 用 。 

第 20-35 行 主要 是 导入 在 ImageNet 进行 预 训练 的 基础 网 络 Xception， 不 带 最 后 的 全 
连接 层 ， 并 设置 输入 单 张 图 片 的 shape, HAG X conv 部 分 的 参数 更 新 ， 使 用 Sequential 
设计 方法 添加 义 _conv 层 和 后 续 的 一 些 全 连接 层 ， 并 在 过 程 中 使 用 Dropout 技术 ， 第 35 
行 会 输出 整个 模型 的 概况 ， 包 括 网 络 各 层 情况 ， 总 的 参数 及 可 训练 参数 信息 。 
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第 37-53 行 主 要 是 制作 数据 生成 器 : 第 37~43 表示 使 用 的 归 一 化 、 旋 转 、 移 动 、 翻 
转 等 图 像 增 广 的 操作 ， 这 能 增 大 样本 数量 ， 让 模型 有 更 好 的 抗 噪 性 能 ， 对 于 测试 集 则 只 
使 用 归 一 化 ， 不 需要 增 广 技巧 ， 然 后 利用 fow from directory 制作 图 像 生 成 器 ， 其 参数 
主要 有 目录 、 目 标 shape, batch size 和 分 类 模式 ， 共 有 24 类 ， 故 选 categorical， 如 果 只 
有 了 两 类 ， 则 选 binary， 默 认 使 用 shuffle 操作 ， 在 测试 集 不 使 用 shuffle. 

第 61-63 行 则 是 进行 compile 操作 ， 作 用 是 将 模型 与 损失 函数 、 优 化 算法 和 观 
察 指 标 关联 起 来 ， 此 处 loss 选择 的 是 categorical crossentropy， 如 果 是 2 分 类 则 使 用 
binary crossentropy; 然后 第 65~71 行进 行 训练 和 测试 ， 最 大 轮 数 设 置 为 10; 第 73 行为 
保存 模型 。 

执行 结果 如 下 : 


Found 116971 images belonging to 24 classes. 
Found 14048 images belonging to 24 classes. 





Epoch 1/10 

4679/4678 [=====] - 7529s 2s/step - loss: 1.8951 - acc: 0.7095 - 
val loss: 028727 — val ace 0-7192 

Epoch 2/10 

4679/4678 [=====] - 7310s 2s/step - loss: 0.8303 - acc: 0.7925 - 
val_loss: 0.8364 - val_acc: 0.7408 

Epoch 3/10 

4679/4678 [====] - 10610s 2s/step - loss: 0.8090 - acc: 0.8069 - 
vart loss: 0:8139 =- val acc: 0:7645 

Epoch 4/10 

4679/4678 [====] - 10609s 2s/step - loss: 0.7992 - acc: 0.8151 - 
val loss: 0-8983 - val acc: 0.7625 

Epoch 5/10 

4679/4678 [====] - 10648s 2s/step - loss: 0.7949 - acc: 0.8220 - 
val loss: 0.9697 — val acc: 0.7526 

Epoch 6/10 

4679/4678 [====] - 10605s 2s/step - loss: 0.7843 - acc: 0.8279 - 
val loss: 028590. — yal acc: 027727 

Epoch 7/10 

4679/4678 [===] = 10590s 2s/step - loss: 0.7945 = acc: 0.8301 = 


val loss: 0.9664 - val acc: 0.7608 
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训练 集 有 约 11.7 万 张 图 片 ， 本 测试 集 有 约 1.4 万 张 图 片 ， 进 行 一 轮训 练 非常 耗 时 ， 
需要 6000-7000 秒 左右 。 


当 训 练 完 毕 时 ， 紧 接 上 面 代 码 ， 可 以 通过 以 下 代码 进行 loss 和 accuracy 绘图 ， 直 观 
地 观察 其 变化 趋势 : 


epochs = range(len(acc)) 


plt.figure() 
plt.plot(epochs, H.history['acc'], 'b', label-'Training acc') 


plt.plot (epochs, H.history['val acc'], "ri, label-'Validation acc') 
plt.title('Training and validation accuracy') 
plt.legend() 


plt.savefig('loss keras.jpg') 
plt.figure() 


plt.plot(epochs, H.history['loss'], 'b', label-'Training loss') 

plt.plot(epochs, H.history['val loss'], 'r', label-'Validation 
loss') 

plt.title('Training and validation loss') 

plt.legend() 

plt.savefig('acc keras.jpg') 


此 处 使 用 Keras 预 训练 的 VGG 模型 来 作 一 个 简单 的 图 像 分 类 示例 。 只 需要 将 代码 
中 的 以 下 代码 蔡 换 为 VGG 16 即 可 : 


VGG16 = keras.applications.vgg16.VGG16 
X conv = VGGl6(include top-False, weights-'imagenet', input ` 


shape-(image size, image size, 3)) 
输出 如 下 : 


Epoch 1/10 

4679/4678 [ — 10602s 2s/step - loss: 
1.0256 = acc: 0.6697 = val loss: 0.8088 = val acc: 0.7567 

Epoch 2/10 

4679/4678 【= 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ==] - 10573s 2s/step - loss: 
0.8492 — acc: 0.7307 - val _ loss: 0.8648 — val_acc: 0.7646 
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Epoch 3/10 

BETES? [5 ==] - 10587s 2s/step - loss: 
0:8408 = acc: 0:7425 = val loss: 0.8887 = yal acc: 0.7791 

Epoch 4/10 

4679/4678 [==============================] - 10582s 2s/step - loss: 
0.8551 - acc: 0.7481 - val loss: 0.9506 - val acc: 0.7698 

Epoch 5/10 

4679/4678 [==============================)] - 10623s 2s/step - loss: 


0.8726 - acc: 0.7488 - val loss: 1.0459 - val acc: 0.7679 


4.5 DenseNet 





4.5.1 DenseNet 介绍 


DenseNet? 于 2017 年 提出 , 它 主要 更 加 关注 feature 方面 , 网 络 结构 不 复杂 , 但 有 效 。 

一 般 随 着 网 络 加深 ， 梯 度 消失 越发 明显 ，ResNet 类 网 络 便 是 利用 跨 层 跳 转 的 方式 ， 
增强 层 与 层 之 间 的 信息 转 递 ， 而 DenseNet 的 作者 干脆 将 所 有 层 都 连接 起 来 ， 即 当前 层 
会 接收 前 面 所 有 层 的 直接 信息 转 递 ， 所 以 会 达到 一 种 减轻 梯度 消失 的 效果 : 反 向 传播 梯 
度 时 ， 所 有 层 都 可 以 直接 从 loss 中 获取 梯度 信息 。 

ResNet 是 做 的 Y=F(X)+X 的 操作 ， 而 DenseNet 则 做 的 是 Y=F([X0, X1, ++, XN]) 
的 操作 ，[X0, X1, …, XN] 表示 通道 方向 上 连接 ， 再 使 用 1X1 卷 积 进行 通道 降 维 ， 如 
Inception 一 样 。 

现在 各 个 框架 都 有 实现 DenseNet 的 模型 ， 并 提供 预 训练 参数 。 针 对 DenseNet 有 作者 
提出 了 一 种 节省 内 存 的 改进 方法 ， 详 情 可 见 论文 “ ， 可 查阅 PyTorch 版 开源 项 目 ”。 


4.5.2 PyTorch 版 DenseNet 使 用 示例 


以 下 代码 是 使 用 PyTorch 预 训练 的 DenseNet121 结构 进行 分 类 、 训 练 和 测试 数据 ， 
如 ResNet 示例 一 样 ， 不 过 此 处 使 用 其 父 目 录 ， 包 含 train images 和 val images， 只 需要 
传 入 这 个 目录 即 可 ， 无 需 其 他 额外 操作 。 


15 https://arxiv.org/pdf/1608.06993.pdf 
16 https://arxiv.org/pdf/1707.06990.pdf 
17 https://github.com/gpleiss/efficient densenet pytorch 
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import torch 

import torch.nn as nn 

import torch.optim as optim 

from torch.optim import lr scheduler 

from torch.autograd import Variable 

import torchvision 

from torchvision import datasets, models, 
import time 

import os 

os.environ["CUDA VISIBLE DEVICES "] = "2 " 


data transforms - ( 

'train': transforms.Compose([ 
transforms.RandomResizedCrop (224), 
transforms.RandomHorizontalFlip(), 
transforms.ToTensor(), 
transforms.Normalize([0.485, 0.456 

0.2 25]) 

D, 

'val': transforms.Compose([ 
transforms.Resize(256), 
transforms .CenterCrop (224), 
transforms.ToTensor(), 
transforms.Normalize([0.485, 0.456 

0.2 25]) 

D, 


data dir = '/hdd/train data/data/' 


class numbers = len(os.listdir(data dir*'t 


transforms 


, 0.406], [0.229, 


, 0.406], [0.229, 


rain')) 
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image datasets = (x: datasets.ImageFolder (os.path.join(data 


x), 


30 
31 
32 
33 


data_transforms[x]) for x in ['tra 


in; ‘valji 


dataloders = {x: torch.utils.data.DataLoader (image_datasets [x], 


batch size-4, 


shuffle-True, 
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34 
z DT 下 
35 
36 
'val']) 
S 
38 


num workers-4) for 
"brain? walt} 
dataset sizes = (x: len(image datasets[x]) for x in ['train', 
model ft = models.densenet121 (pretrained-True) 


39 num ftrs = model ft.classifier.in features 

40 model ft.classifier — nn.Linear(num ftrs, class numbers) 

41 

42 model ft = model ft.cuda() 

43 

44 criterion = nn.CrossEntropyLoss () 

45 optimizer ft = optim.SGD(model ft.parameters(), lr-0.001, 
momentum-0.9 ) 

46 exp lr scheduler = lr scheduler.StepLR(optimizer ft, step 
size=7, gamm a=0.1) 

47 

48 since = time.time() 

49 best model wts = model ft.state dict () 

50 best ace = 0.0 

51 

52 num epochs-25 

53 

54 for epoch in range (num epochs): 

55 print(f'Epoch {epoch}-{num_epochs - 1}') 

56 peint ot == 30) 

Si 

58 for phase in ['train', 'val']: 

59 if phase == 'train': 

60 exp lr scheduler.step() 

61 model ft.train(True) 

62 else: 

63 model ft.train(False) 

64 

65 running loss = 0.0 

66 running corrects = 0 


67 
68 
69 
70 
TE 
72 
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for data in dataloders[phase]: 


inputs, labels = data 


inputs = Variable (inputs.cuda() ) 
labels Variable (labels .cuda () ) 


H 


optimizer ft.zero grad() 


# forward 
outputs = model ft (inputs) 
_, preds = torch.max(outputs.data, 1) 


loss = criterion(outputs, labels) 


# backward + optimize only if in training phase 
if phase == 'train': 
loss.backward() 


optimizer ft.step() 


# statistics 
running loss += loss.item() 


running corrects += torch.sum(preds == labels.data) 


epoch loss - running loss / dataset sizes[phase] 


epoch acc - running corrects / dataset sizes[phase] 


print (f' {phase} Loss: {epoch loss) Acc: {epoch acc]') 


# deep copy the model 

if phase == 'val' and epoch acc > best acc: 
best acc = epoch acc 
best model wts = model ft.state dict () 


部 分 输出 如 下 ， 由 于 数据 量 很 大 ， 训 练 相对 耗 时 ， 可 以 看 到 损失 都 在 下 降 ， 后 期 就 
是 不 断 调 参 优化 的 过 程 。 当 然 各 位 读者 也 可 以 使 用 其 他 框架 下 的 DensetNet， 重 要 的 是 
熟悉 其 原理 及 使 用 方法 。 
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epoch 0-24 train Loss: 0.2892041568333835 val Loss: 
0.27728685446864243 

epoch 1-24 train Loss: 0.20777599584984863 val Loss: 
0.22389139634279157 

epoch 2-24 train Loss: 0.18462860962689495 val Loss: 
0.2460411954883291 

epoch 3-24 train Loss: 0.17004377474133298 val Loss: 
0.20488949719570357 

epoch 4-24 train Loss: 0.16132812578840316 val Loss: 
0.21411481226003115 

epoch 5-24 train Loss: 0.15344601723464588 val Loss: 
0.21881639141513032 

epoch 6-24 train Loss: 0.14768428714560505 val Loss: 
0.20064345874944553 

epoch 7-24 train Loss: 0.12036990261705872 val Loss: 
0.17051134483383837 

epoch 8-24 train Loss: 0.1135936840971085 val Loss: 
0.15720532341926 

epoch 9-24 train Loss: 0.11079162619448422 val Loss: 
0.16754532477697506 

epoch 10-24 train Loss: 0.10765806492305786 val Loss: 
0.15938173942183037 

epoch 11-24 train Loss: 0.10642126661082785 val Loss: 
0.17335129673072988 

epoch 12-24 train Loss: 0.10552223914139162 val Loss: 
0.16582830098790705 





46 本 章 总 结 


本 章 介绍 了 比较 成 熟 的 几 个 图 像 分 类 模型 ， 并 使 用 不 同 的 深度 学 习 框架 进行 了 示范 。 

对 于 图 像 分 类 ， 目 前 有 多 种 网 络 可 用 ， 但 在 实际 工程 中 ， 需 要 认真 分 析 应 用 场景 、 
条 件 、 算 法 假设 、 性 能 等 各 方面 因素 。 

目前 服务 器 端 常用 的 还 是 ResNet 系列 和 Inception 系列 ，VGG 模型 使 用 频率 已 经 相 
对 减少 ， 而 在 移动 端 则 是 以 MobileNet 这 类 用 得 较 多 。 
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虽然 目前 有 很 多 网 络 在 几 个 公开 的 数据 集 上 分 类 效果 优异 ， 但 图 像 分 类 领域 仍然 有 
许多 问题 有 待 解决 。 比 如 细 粒 度 分 类 难度 很 大 ， 公 开 的 鸟 类 数据 集 CUB^, AT 200 
个 类 别 约 1.2 万 张 鸟 类 图 片 ， 感 兴趣 的 读者 可 查阅 细 分 类 相关 的 论文 与 算法 实现 。 


另外 目前 本 书 所 介绍 的 都 是 一 张 图 像 包 含 一 个 主体 ， 即 单 标签 ， 如 果 图 片 里 包含 多 
个 主体 ， 比 如 一 人 一 狗 ， 这 就 涉及 到 了 多 标签 图 像 分 类 问题 ， 有 兴趣 的 读者 可 参考 网 上 
的 资源 ”。 

深度 学 习 是 基于 题 海 战术 的 方法 获取 知识 的 ， 即 监督 学 习 。 

那么 这 个 世界 上 有 多 少 类 物体 呢 ? 怎么 去 定义 这 些 类 别 之 间 的 关系 呢 ? 如 给 了 一 只 
猫 的 图 片 ， 一 个 所 谓 的 AI 系统 应 该 将 这 只 猫 识 别 到 哪个 级 别 : 是 不 是 猫 、 按 大 小 分 、 
按 颜 色 分 、 按 品种 分 等 等 。 这 样 一 思考 ， 分 类 任务 就 非常 复杂 了 ， 首 先 有 多 少 类 ， 本 书 
的 理解 :无穷 ; 其 次 ， 勉 强 通 过 某 种 强制 方法 确定 类 别 总 数 后 ， 怎 么 获取 这 些 数 据 也 是 
一 个 值得 深思 的 问题 ， 因 为 深度 学 习 样本 与 标签 需要 一 一 对 应 起 来 。 

目前 Google 放出 了 一 个 超级 大 的 图 像 库 叫 作 OID V4", 里 面包 含 了 约 2 万 个 类 别 ， 
总 数 约 3 千 万 张 图 片 ， 在 600 类 上 标 了 约 1500 万 个 主体 框 ， 但 这 也 仅仅 是 这 个 世界 的 
冰山 一 角 。 

所 以 笔者 认为 目前 深度 学 习 在 图 像 分 类 领域 确实 解决 了 一 些 问 题 ， 但 其 缺点 也 十 分 
明显 ， 想 要 真正 做 好 图 像 分 类 ， 任 重 道 远 。 


18 http://www.vision.caltech.edu/visipedia/CUB-200-2011.html 
19 https://www.ijcaonline.org/archives/volume162/number8/devkar-2017-ijca-913398.pdf 
20 https://storage.googleapis.com/openimages/web/index.html 
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第 4 章 介绍 了 图 像 分 类 ,读者 已 知 如 何 将 一 张 图 片 识 别 为 既定 类 别 集合 中 的 某 一 类 。 
如 果 想 知道 分 类 的 物体 在 图 像 中 的 位 置 ， 比 如 一 只 猫 在 哪里 ， 能 给 出 矩形 框 将 其 框 住 吗 ? 

这 就 是 目标 检测 要 解决 的 问题 ， 即 检测 出 图 片 中 主体 所 在 的 位 置 Bounding Box， 这 
个 Bounding Box (简称 BBox〉 主 要 是 用 算 形 框 左上 角 坐 标 与 右 下 角 坐 标 或 左上 和 角 坐 标 与 
矩形 框 长 宽 表 示 ， 同 时 给 出 所 检测 主体 的 类 别 。 从 这 里 可 以 看 出 ， 目 标 检测 是 在 分 类 的 
基础 上 再 加 一 个 预测 BBox 的 任务 ， 如 图 5-1 所 示 。 

目前 深度 学 习 在 目标 检测 和 识别 方面 主要 有 两 大 “流派 ”: 候选 框 和 回归 法 。 候 
选 框 流派 主要 使 用 某 种 算法 获取 主体 所 在 的 候选 区 域 ， 然 后 再 对 这 块 区 域 进行 分 类 ， 以 
Faster RCNN/SPP/R-FCN 为 代表 ; 回归 法 则 直接 进行 BBox 回归 与 主体 分 类 ， 以 YOLO/ 
SSD 等 为 代表 。 
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目标 检测 与 识别 主要 应 有 


目标 检测 





图 5-1 目标 检测 与 识别 


目的 场景 包括 但 不 限于 安防 监控 、 交 通 出 行 、 电 商 等 。 比 如 
人 脸 检测 与 识别 技术 可 应 用 在 火车 、 飞 机 等 交通 出 行 方 面 ， 也 可 用 在 公安 侦察 破案 方面 ， 
还 可 以 用 在 移动 支付 等 方面 ， 此 时 便 需要 对 相机 中 获取 的 图 片 进 行人 脸 检测 与 识别 ， 确 
认 是 否 为 本 人 或 嫌疑 犯 。 电 商 领 域 也 同样 有 广泛 应 用 ， 比 如 淘宝 网 的 “ 拍 立 淘 ”， 用 户 
或 商家 上 传 了 商品 图 片 之 后 ， 怎 么 做 对 比 ? 怎样 剔除 复杂 的 干扰 背景 ? 如 何 区 分 上 装 和 
下 装 ? 所 有 这 些 问 题 都 有 目标 检测 与 识别 发 挥 的 空间 。 





经 常 还 会 用 到 IOU 的 概 


念 来 表示 两 个 矩形 框 的 重合 程度 ， 实 质 
就 是 它们 相交 部 分 的 面积 除 以 它们 合并 
部 分 的 面积 ， 值 越 大 重 倒 越 多 ， 即 检测 


得 越 准 ， 如 图 5 


-2 所 示 。 


本 章 主要 介绍 Faster RCNN、YOLO 
V3 及 SSD 三 种 网 络 及 其 使 用 示例 。 


5.1 Faster RCNN 








LU 














[> ous 








5 5-2 IOU 计算 











5.1.1 Faster 


RCNN 介绍 


目标 检测 BBox 最 常规 的 方法 是 使 用 滑 窗 技术 ， 即 用 不 同 大 小 的 矩阵 框 扫描 整 张 图 
片 ， 然 后 在 每 个 框 进行 是 否 有 感 兴趣 的 主体 筛选 。 
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BBox 也 可 称 作 感 兴趣 





“兴趣 ”。 
原始 的 RCNN'! 算法 就 是 使 用 Selective Search 获得 候选 BBox 后 ， 利 用 CNN 算法 代 
蔡 传统 手工 设计 特征 的 方法 提取 对 应 区 域 的 特征 ， 然 后 再 过 
但 Selective Search 方法 速度 相对 较 慢 ， 且 对 所 有 的 BBox 都 作 CNN 提取 ， 那 么 如 
果 两 个 BBox BBLS, H BBox AMA LAME? 将 会 造成 大 量 的 重复 计算 。 


所 以 


Search, 
CNN it 


均匀 分 成 mXn 个 小 区 域 ， 然 后 在 每 个 





算 的 过 程 ， 而 只 做 一 次 计算 即 可 。 





Bbox 回 归 | 分 类 | 





Other Net 





区 域 (ROI, Regoin of Interest) ， 即 只 对 当前 区 域 的 内 容 有 





FE 行 分 类 与 回归 。 








HILT Fast RCNN ， 其 结构 类 似 于 图 5-3， 将 图 中 右 侧 部 分 替换 为 Selective 
主要 是 将 原始 的 图 片 先 进行 CNN 操作 ， 这 样 就 规避 掉 了 不 同 区 域 重复 进行 


























ROI Pooling Bbox 回 归 





分 类 





— | ll 














ConvNet mm 





ConvNet 


























Input Image 











5-3 Faster RCNN 示意 图 


同时 提出 了 ROI Pooling 操作 ， 输 入 为 图 片 特征 和 很 多 个 BBox， 将 每 个 BBox 区 域 








区 域内 做 max pooling 操作 ， 即 选取 最 大 值 ， 进 而 








得 到 一 个 mxan 的 特征 。ROI Pooling 将 一 张 图 片 可 以 输出 为 固定 大 小 的 特征 ， 特 征 个 数 
为 候选 BBox 个 数 ， 即 4BBoxX #channelsX mXn。 然 后 展 平 再 传 入 后 面 的 网 络 层 ， 作 


分 类 和 





回归 。 














但 是 Fast RCNN 虽然 解决 了 重复 计算 的 问题 ， 但 候选 BBox 还 是 用 Selective Search 


1 https://arxiv.org/abs/1311.2524 
2 https://arxiv.org/abs/1504.08083 
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来 获取 , 这 部 分 速度 很 慢 的 问题 还 是 没有 解决 。 此 时 Faster RCNN 便 提出 了 RPN CRegoin 
Proposal Network) 网 络 来 代替 Selective Search， 如 图 5-3 所 示 。 


RPN 的 工作 原理 如 下 : 


(1) 首先 将 原始 图 片 送 入 一 个 CNN 网 络 进行 特征 提取 ， 然 后 在 这 个 特征 上 使 用 输 
出 通道 为 256 的 卷 积 ， 卷 积 核 大 小 为 3X3， 再 将 边缘 进行 一 个 单位 的 填充 ， 步 长 为 1， 
这 样 输出 的 平面 空间 大 小 不 变 。 此 卷 积 操作 可 以 将 每 个 像素 连同 它 周 边 的 8 像素 一 起 映 
射 为 维度 为 256 的 向 量 。 

(2) 以 像素 为 中 心 ， 生 成 k 个 anchor box (HE) ， 其 大 小 的 长 宽 已 提前 设 定 好 。 

(3) 对 于 每 个 anchor box， 使 用 其 中 心 点 像素 作为 代表 特征 ， 并 进行 二 分 类 网 络 训 
练 ， 判 断 有 没有 需要 的 主体 ， 并 作 一 个 4 维 输出 的 回归 小 网 络 来 预测 BBox 位 置 。 


然后 将 所 需 主体 的 BBox 传 入 ROI Pooling 进行 后 续 处 理 ， 再 输入 其 他 网 络 进行 精 
确 地 分 类 和 回归 ， 完 成 目标 检测 与 识别 。 


5.1.2 ChainerCV 版 Faster RCNN 示例 


Jk 3B 4 D ChainerCV 中 的 Faster RCNN 来 作 示 例 ， 训 练 数据 集 可 使 用 
DeepFashion， 也 可 以 使 用 自己 制作 的 数据 集 ， 格 式 参 照 DeepFashion 即 可 ， 然 后 运用 
Chainer 定义 数据 类 。 由 于 下 一 节 SSD 中 也 会 使 用 ChainerCV， 故 可 以 将 数据 类 定义 在 
一 个 单独 的 文件 ， 如 FashionBox.py， 内 容 如 下 : 

# FashionBox.py 

1 import os 


import random 


import numpy as np 


import chainer 


from chainercv.utils import read image 


class FashionBboxDataset (chainer.dataset.DatasetMixin): 


O O -J Oy OG» uw» WN 


m 
o 


def init (self; data dir): 


3 https://arxiv.org/abs/1506.01497 
4 http://mmlab.ie.cuhk.edu.hk/projects/DeepFashion.html 
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EE list bbox inshop = os.path.join(data dir, 'Anno/list 
bbox inshop.txt') 

22 

13 self.data dir = data dir 

14 with open(list bbox inshop,'r') as bb: 

t5 # del first 2 lines 

16 self.list_bbox = [line.strip() for line in 
bb.readlines()][3:] 

JJ random.shuffle(self.list bbox) 

18 

19 de ksi UEL 

20 return len(self.list bbox) 

21 

22 def get example(self, i): 

23 """Returns the i-th example. 

24 Returns a color image and bounding boxes. The image is 
in CHW format. 

25 The returned image is RGB. 

26 Args: 

2 i (int): The index of the example. 

28 Returns: 

29 tuple of an image and bounding boxes 

30 d 

31 line = self.list bbox[i].split() 

Eo 

33 img path = line[0] 

34 label = [int (line[1])-1] 

35 # 'ymin', 'xmin', 'ymax', 'xmax' 

36 bbox = [[int(line[4]),int(line[3]),int(line[6]),int(li 
ne[5])]] 

3 bbox = np.stack(bbox).astype (np.float32) 

38 label = np.stack(label).astype (np.int32) 

39 

40 # Load a image 

41 img file — os.path.join(self.data dir, 'Img', img path) 

42 img = read image(img file, color-True) 

43 

44 return img, bbox, label 
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此 文件 最 终 返 回 一 个 数据 集 ， 它 的 第 i 个 元 素 就 是 一 条 样本 ,第 N 个 样本 包含 图 片 
信息 (格式 为 : 通道 X 高 度 X 宽度 ) . BBox 信息 〈[BBoxl, BBox2]) 和 类 别 ID 信息 
([ID1, ID2D ，BBoxi 格式 高 度 为 : ymin, xmin, ymax, xmax， 针 对 自己 的 数据 可 修改 以 
上 代码 第 34-36 行 。 另 外 在 17 行 做 了 打 乱 顺序 的 操作 ， 保 证 随机 性 。 

然后 编写 Faster RCNN 训练 文件 ， 主 要 内 容 如 下 : 


# Faster RCNN train.py 
1 import os 
import random 


import numpy as np 


import chainer 
from chainer.datasets import TransformDataset 


from chainer import training 


c A e D & QN 


from chainer.training import extensions 


9 from chainer.training.triggers import ManualScheduleTrigger 


11 from chainercv.extensions import DetectionVOCEvaluator 
12 from chainercv.links import FasterRCNNVGG16 


13 from chainercv.links.model.faster rcnn import 


FasterRCNNTrainChain 
14 from chainercv import transforms 
LS 
16 from FashionBbox import FashionBboxDataset 
17 
18 class Transform(object): 
a) 
20 def _ init (self, faster rcnn): 
21 sell faster. ronn = faster renn 
22 
23 def call (self, in data): 
24 img, bbox, label = in data 
25 _, H, W = img.shape 
26 img = self.faster_rcnn.prepare (img) 
Zw _, OH, o W= img.shape 
28 Scale) =0 H / H 
29 bbox = transforms.resize bbox(bbox, (H, W), (o H, o W)) 
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30 

ST # horizontally flip 

32 img, params transforms.random flip( 

33 img, x random-True, return param-True) 
34 bbox = transforms.flip bbox( 

35 bbox, (o H, o W), x flip-params['x flip'] 
36 

JY return img, bbox, label, scale 

38 


39 data dir = r'/hdd1/data/FashionData' 

40 InDataset = FashionBboxDataset (data dir) 

41 fashion label = (upper body','lower body', 'full body'] 
42 train size = len(InDataset) *9//10 

43 train data,test data = chainer.datasets.split dataset | 


random(InDataset, train size, seed-None) 


以 上 代码 首先 导入 必要 的 包 ， 并 从 同 级 目录 的 文件 FashionBbox .py 中 导入 
FashionBboxDataset 类 ， 再 定义 一 个 数据 转换 的 类 ， 将 样本 转换 为 Faster RCNN 所 需要 
的 格式 ， 然 后 按 9:1 的 比例 分 割 为 训练 集 和 测试 集 。fashion_label 为 类 别名 称 ， 其 顺序 
索引 需 和 标注 的 文件 一 一 对 应 起 来 。 


44 
45 


faster rcnn = FasterRCNNVGGl6(n fg class-len(fashion 


label) ,pretrained_model='imagenet') 


46 
47 


faster rcnn.use preset ('evaluate') 


model = FasterRCNNTrainChain (faster rcnn) 


第 45-47 行使 用 了 ChainerCV 中 的 FasterRCNNVGGI6 接口 定义 模型 ， 使 用 了 在 
ImageNet 上 预 训练 的 参数 ， 并 传 入 类 别 数 (在 RCNN 系列 中 表示 为 前 景 类 别 数量 ) 。 
然后 传 入 训练 接口 FasterRCNNTrainChain 中 。 


48 
49 
50 
51 
52 
53 
54 


GPUID = 0 
lr = 0.01 
step size = 50000 
iteration = 100000 


outdir = 'fasterrcnn result! 
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55 if GPUID >= 0: 

56 chainer.cuda.get device from id(GPUID).use() 

57 model.to gpu() 

58 optimizer = chainer.optimizers.MomentumSGD(lr-lr, momentum-0.9 

59 optimizer.setup (model) 

60 optimizer-.add_hook(chainer. optimizer .WeightDecay (rate-0.0005)) 

61 

62 train data = TransformDataset (train data, Transform(faster_ 
rcnn)) 

63 train iter = chainer.iterators.MultiprocessIterator( 


64 


train data, batch size-1, n processes-None, shared 


mem-100000000) 


65 test iter = chainer.iterators.Seriallterator( 

66 test data, batch size-1, repeat-False, shuffle=False) 
67 

68 updater = chainer.training.updater.StandardUpdater ( 


69 
70 


train_iter, optimizer, device=GPUID) 


第 49-60 行 定义 了 训练 所 用 的 常量 ， 并 转换 到 对 应 GPU 上 ， 定 义 了 优化 算法 并 加 
入 权重 衰减 操作 。 第 62~69 行 制作 了 训练 和 测试 迭代 器 ， 训 练 使 用 了 多 进程 迭代 器 接口 ， 
可 以 更 多 地 利用 计算 机 资源 ， 然 后 用 updater 将 训练 数据 和 优化 算法 关联 起 来 。 


71 trainer = training.Trainer( 

72 updater, (iteration, 'iteration'), out-outdir) 
73 

74 trainer.extend( 


Ta 


extensions.snapshot object (model.faster_rcnn, 'snapshot 


model.npz'), 


76 trigger- (iteration, 'iteration')) 

77 trainer.extend(extensions.ExponentialShift('lr', 0.1), 
78 trigger-(step size, 'iteration')) 

79 

80 log interval = 100, 'iteration"' 

81 plot interval = 3000, 'iteration' 

82 print interval = 100, 'iteration' 

83 
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84 trainer.extend(chainer.training.extensions.observe lr(), 
85 trigger-log interval) 
86 trainer.extend(extensions.LogReport (trigger-log interval)) 


87 trainer.extend (extensions.PrintReport( 


88 ['iteration', 'epoch', 'elapsed time', "lr", 
89 'main/loss', 

90 'main/roi loc loss', 

91 'main/roi_cls_loss', 

92 'main/rpn_loc_loss', 

93 'main/rpn cls loss', 

94 'validation/main/map', 

95 ]), trigger-print interval) 


96 trainer.extend(extensions.ProgressBar(update interval-10)) 
97 


98 if extensions.PlotReport.available(): 





99 trainer.extend( 

00 extensions.PlotReport ( 

01 ['main/loss'], 

02 file name-'loss.png', trigger-plot interval 
03 ), 

04 trigger=plot_interval 

05 ) 

06 

07 trainer.extend( 

108 DetectionVOCEvaluator ( 

09 test iter, model.faster rcnn, use 07 metric-True, 
10 label names-fashion label), 

dE trigger=ManualScheduleTrigger ( 

112 [step size, iteration], 'iteration')) 

113 

14 trainer.extend(extensions.dump graph ('main/loss')) 

115 


116 trainer.run() 


以 上 代码 是 trainer 主管 定义 的 一 些 操作 ， 如 日 志 统计 信息 的 输出 ， 损 失 值 的 作 图 ， 
保存 日 志 ， 在 测试 集 上 测试 模型 ， 观 察 并 改变 学 习 率 等 。 
当 执 行 训练 命令 ， 即 运行 python Faster RCNN train py 命令 时 ， 如 果 出 现 RuntimeError: 
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Invalid DISPLAY variable, 请 在 执行 命令 前 加 MPLBACKEND-Agg 命 令 ， 即 
MPLBACKEND-Agg python Faster RCNN train.py. 


最 后 屏幕 输出 如 下 ， 分 别 对 应 的 是 第 88-95 行 所 设 定 的 输出 项 ， 即 iteration, 
epoch, elapsed time. lr. roi loc loss. roi cls loss. rpn loc loss, "pn cls loss 和 


validation/main/map， 可 以 看 到 最 后 map AA 87.7%， 读 者 可 以 继续 调 参 优化 : 


99100 2 24131.1 0.0001 0.146698 0.0544538 0.057419 0.010731 
0.024094 
99200 2 24161.2 0.0001 0.150826 0.0600952 0.0583056 0.0114728 
0.0209526 
99300 2 24191.5 0.0001 0.136525 0.0537419 0.0482578 0.014827 
0.019698 
99400 2 24221.4 0.0001 0.155592 0.0528956 0.0552773 0.0178339 
0.0295852 
99500 2 24252.3 0.0001 0.149027 0.0569271 0.0556141 0.0119244 
0.0245615 
99600 2 24280.4 0.0001 0.142636 0.0531677 0.0552057 0.0119353 
020223217 
99700 2 24309-6 0.0001 0.171665 0.0628794 0.0583975 0.0136649 
0.0367229 
99800 2 24339.8 0.0001 0.176076 0.0640134 0.073458 0.0147406 
0.0238642 
99900 2 24369 0.0001 0.143688 0.0515257 0.0547322 0.0152767 
0.0221535 
100000 2 24852.6 0.0001 0.130706 0.0504806 0.0514171 0.00918897 
0.0196189 0.877185 





训练 完毕 以 后 ， 可 以 使 用 以 下 代码 来 进行 检测 识别 ， 查 看 视觉 效果 。 如 果 没有 桌面 
环境 ， 可 以 在 Jupyter-Notebook? 中 使 用 ， 执 行 以 下 语句 ， 然 后 使 用 detect img 函数 ， 就 
可 以 显示 出 检测 识别 结果 ， 如 detect img("/tmp/test imgs/1.jpg"): 
1 import matplotlib.pyplot as plot 
2 Smatplotlib inline 


3 


4 import chainer 


5 http://jupyter.org/ 
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from chainercv import utils 
from chainercv.visualizations import vis bbox 


from chainercv.links import FasterRCNNVGG16 


wo 0 - 0 0 


gpuid = 6 

10 pretrained model = 'fasterrcnn result/snapshot model.npz' 
11 img path = r'/tmp/test imgs/942284 2.jpg' 

12 label names = (upper body','lower body', "full body") 

13 

14 model = FasterRCNNVGGl6(n fg class-len(label names), 


15 pretrained model-pretrained model ) 

16 

17 if gpuid »- 0: 

18 chainer.cuda.get device from id(gpuid).use() 

19 model.to gpu() 

20 

21 def detect img(img path): 

22 img = utils.read image(img path, color=True) 

23 bboxes, labels, scores = model.predict ([img]) 

24 bbox, label, score = bboxes[0], labels[0], scores[0] 
25 

26 vis bbox( 

2 img, bbox, label, score, label names-label names) 
28 plot.show() 


基于 某 公司 训练 数据 集 (数据 标注 员 标 注 过 ) 训练 后 ， 在 Jupyter-Notebook 中 的 测 
试 结果 中 ， 预 测 类 别 后 面 跟 的 数字 表示 计算 机 有 多 少 信 心 相信 这 个 分 类 是 准确 的 ， 最 大 
值 为 1。 该 数据 集 与 DeepFashion 类 似 , 但 只 标注 了 类 型 与 BBox, DeepFashion 会 更 加 全 面 ， 
有 兴趣 的 读者 可 使 用 DeepFashion 进行 尝试 和 学 习 。 

可 以 从 图 5-4 看 到 ， 最 终 的 总 体 效果 还 是 不 错 的 ， 大 部 分 都 可 以 检测 出 对 的 位 置 和 
类 别 ， 但 也 有 不 完美 的 地 方 ， 如 图 5-4 所 示 中 的 最 后 一 张 图 片 的 BBox 将 下 装 裙子 也 框 
住 了 ， 而 且 没 有 检测 出 裙子 ， 只 检测 出 了 上 装 ， 这 些 都 是 在 工程 中 需要 不 断 优化 模型 的 
地 方 。 

目前 开源 社区 也 有 其 他 版 本 的 实现 ， 有 的 会 更 快 ， 比 如 使 用 并 行 技 术 ， 以 下 是 几 个 
很 有 名 气 的 实现 ， 感 兴趣 的 读者 可 以 参考 : 
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https://github.com/chainer/chainercv/tree/master/examples/faster rcnn 
https://github.com/ruotianluo/pytorch-faster-rcnn 
https://github.com/chenyuntc/simple-faster-renn-pytorch 
https://github.com/precedenceguo/mx-renn 
https://github.com/apache/incubator-MXNet/tree/master/example/renn 
https://github.com/linmx0130/ya_mxdet 
https://github.com/jinfagang/keras frcnn 












































图 5-4 Faster RCNN 检测 结果 


5.2 SSD 





5.2.1 SSD 介绍 


RCNN 系列 算法 包含 候选 区 域 提取 和 精确 细 化 〈 分 类 和 BBox 回归 ) 两 块 ， 故 称 
为 two-stage 技术 。 有 的 学 者 觉得 这 样 太 麻烦 了 ， 并 提出 一 步 到 位 的 解决 方案 ， 这 就 是 
SSD* (Single Shot MultiBox Detector) 。 

SSD 会 在 总 分 类 数 上 加 一 个 背景 的 类 别 , 这 样 将 形成 N+1 个 类 别 , N 表示 待 分 类 数 ， 
然后 再 使 用 一 个 回归 子 网 络 进行 BBox 真 值 预 测 。 另 外 SSD 在 各 CNN 子 网 络 都 可 以 进 
行 分 类 和 回归 预测 ， 可 实现 多 尺度 预测 ， 这 样 处 理 的 网 络 对 小 目标 检测 效果 也 不 错 。 

BBox 可 以 出 现在 图 片 中 的 位 置 和 大 小 可 以 是 任意 的 ， 为 了 简化 计算 ，SSD 也 会 使 
些 默认 的 BBox， 或 称 为 Anchor box， 这 点 和 Faster RONN 类 似 。 


6 http://arxiv.org/abs/1512.02325 
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如 果 输 入 的 BBox 大 小 为 wXh, 那么 给 定 两 种 参数 , * 表 示 大 小 , 范围 是 (0,1 比例 7， 
7> 0; 那么 就 会 生成 两 个 Anchor box， 形 状 分 别 为 : wsXhs 和 w/sqrt(7)Xh/sqrt(7)， 如 果 
r+ 和 s 一 起 使 用 ， 那 么 两 者 的 效果 全 加 。 

如 果 提 供 了 m 个 BBox 大 小 ， 放 入 数组 sizes 中 ,nn 个 比例 ， 放 入 数组 ratios 中 ， 
此 时 会 生成 m+n-1 个 Anchor box。 对 于 第 i 个 Anchor box: 如 果 i<= m， 那 么 使 用 参数 
sizes[i] 和 ratios[0]; 如 果 i>m， 则 使 用 参数 sizes[0] 和 ratios[j7m]- 

对 于 一 个 Anchor box， 需 要 预测 它 里 面 的 内 容 是 否 包 含 事先 定义 好 的 类 别 ， 如 为 其 
他 的 东西 ， 可 简单 视 为 背景 。 此 处 对 每 个 像素 点 使 用 的 是 核 大 小 为 3X3， 输 出 通道 数 为 

“#anchors X (#classes+1+4)”， 边 缘 补 齐 为 1， 步 长 为 1 的 卷 积 操作 ， 这 样 输出 的 平面 

空间 大 小 不 会 有 变化 ， 只 是 在 通道 数 方向 进行 了 映射 。 

例如 第 入 个 样本 在 (i,)]) 点 像素 的 输出 信息 全 在 Output[N, : ij E, CAET 

“#anchors X (#classes+1+4)” 个 数字 ， 其 中 “#classes+1” 表 示 每 个 Anchor box 中 属于 各 

个 类 别 的 概率 大 小 ; 4 表示 BBox 回归 坐标 值 。 后 面 再 加 上 步 长 为 2 的 Max Pooling 进行 
减 半 和 拼接 的 操作 ， 实 现 不 同 尺寸 的 输出 。 

通常 一 张 图 片 里 只 有 几 个 所 需 的 主体 ， 因 此 对 应 的 真 值 BBox 数量 不 多 ， 但 通过 网 
络 会 生成 大 量 的 候选 BBox， 可 以 想象 ， 很 多 生成 的 BBo 是 不 含有 或 部 分 含有 的 主体 ， 
即 为 “背景 ”类 ， 这 可 能 会 引起 数据 不 平衡 ， 所 以 在 计算 损失 信号 的 时 候 ， 不 应 该 过 多 
BREN, ARAMA A. MEARS I, HAT DEA ARIE; xt 
于 回归 常用 mse 函数 ， 也 可 使 用 smooth L1 函数 〈 线 性 增长 ， 且 平滑 可 导 ) 。 

此 外 算法 中 还 用 到 了 NMS (Non Maximum Suppression) ， 其 作用 便 是 对 每 个 像素 
所 生成 的 Anchor box 进行 筛选 ， 即 在 几 个 部 分 重 又 的 Anchor box 中 只 保留 IOU 最 高 的 
那个 。 


5.2.2 SSD 示例 


关于 SSD 的 训练 和 测试 ， 下 面 仍然 使 用 Chainer 框架 进行 示范 ， 会 重复 使 用 Faster 
RCNN 示例 中 的 数据 集 ， 准 备 文件 FashionBox.py， 训 练 文件 代码 如 下 : 


# SSD train.py 
1 import copy 
2 import argparse 


3 import numpy as np 


import chainer 


4 

5 

6 from chainer import serializers, training 

7 from chainer.optimizer import WeightDecay 

8 from chainer.training import extensions, triggers 

9 from chainer.datasets import ConcatenatedDataset, 
TransformDataset 

10 

11 from chainercv import transforms 

12 from chainercv.links import SSD300, SSD512 

13 from chainercv.links.model.ssd import GradientScaling, 
multibox loss 

14 from chainercv.links.model.ssd import random crop with bbox 
constraints 

15 from chainercv.links.model.ssd import random distort 

16 from chainercv.links.model.ssd import resize with random 
interpolation 


17 from chainercv.extensions import DetectionVOCEvaluator 





18 

19 from FashionBbox import FashionBboxDataset 

20 

21 class MultiboxTrainChain(chainer.Chain): 

22 

23 def _ init (self, model, alpha-1, k-3): 

24 super(MultiboxTrainChain, self). init  () 

2b with self.init scope(): 

26 self.model - model 

2 self.alpha = alpha 

28 self.k =k 

29 

30 def call (self, imgs, gt mb locs, gt mb labels): 
3m mb Loes, mb confs = self.model (imgs) 

32 loc loss, conf loss - multibox loss( 

33 mb locs, mb confs, gt mb locs, gt mb labels, self.k) 
34 loss = loc loss * self.alpha + conf loss 

35 

36 chainer.reporter.report( 


只 别 
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37 loons lossr oss/ loc.) EE 


conf_loss}, 


38 self) 
39 

40 return loss 
41 


以 上 代码 首先 也 是 导 包 过 程 ， 然 后 定义 了 一 个 网 络 ， 主 要 继承 了 chainer.Chain 25, 
然后 添加 了 损失 函数 的 计算 。multibox_loss 详细 定义 了 可 以 查看 ChainerCV 框架 的 源码 ， 
单纯 的 Python 代码 ， 用 户 体验 友好 。 


42 class Transform(object) : 


43 

44 def init (self, coder, size, mean): 

45 # to send cpu, make a copy 

46 self.coder - copy.copy (coder) 

47 self.coder.to cpu() 

48 

49 self.size - size 

50 self.mean = mean 

SE 

52 def call (self, in data): 

S3 # There are five data augmentation steps 
54 # 1. Color augmentation 

55 # 2. Random expansion 

56 # 3. Random cropping 

GT # 4. Resizing with random interpolation 
58 # 5. Random horizontal flipping 

59 img, bbox, label = in data 

60 

61 # 1. Color augmentation 

62 img = random distort (img) 

63 

64 # 2. Random expansion 

65 if np.random.randint (2): 

66 img, param = transforms.random expand( 
67 img, fill-self.mean, return param-True) 
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bbox = transforms.translate bbox( 


bbox, y offset-param['y offset'], x 


offset-param['x offset']) 


70 
TE 
72 
73 
74 
Wës 
slice'], 
76 
15 
78 
79 
80 
81 
self.size)) 
82 
self.size)) 
83 
84 
85 
86 
87 
88 
flip']) 
89 
90 
91 
92 
93 
94 
95 


# 3. Random cropping 

img, param = random crop with bbox constraints ( 
img, bbox, return param-True) 

bbox, param = transforms.crop bbox( 


bbox, y slice-param['y slice'], x slice-param['x 


allow outside center-False, return param-True) 
label - label[param['index']] 


# 4. Resizing with random interpolatation 
_, H, W = img.shape 


img = resize with random interpolation(img, (self.size, 


bbox = transforms.resize bbox(bbox, (H, W), (self.size, 


# 5. Random horizontal flipping 
img, params = transforms.random flip( 

img, x_random=True, return_param=True) 
bbox = transforms .flip_bbox ( 


bbox, (self.size, self.size), x_flip=params['x_ 


# Preparation for SSD network 
img -= self.mean 
mb loc, mb label = self.coder.encode(bbox, label) 


return img, mb loc, mb label 


第 42-94 行 定义 了 对 输入 图 片 的 前 期 操作 ， 包 括 一 些 图 像 增 广 技 术 、 均 值 化 、 编 码 
为 SSD 网 络 所 需要 的 格式 。 
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96 def main(): 





97 parser = argparse.ArgumentParser () 
98 parser.add_argument ( 
99 '--model', choices=('ssd300', 'ssd512'"), 
default='ssd300') 
00 parser.add argument('--batchsize', type-int, default=32) 
01 parser.add argument('--gpu', type-int, default--1) 
102 parser.add argument('--out', default-'result') 
103 parser.add argument ('--resume') 
04 args = parser.parse args() 
05 fashion label = (upper body','lower body', 'full body'] 
106 
07 if args.model -- 'ssd300': 
108 model = SSD300( 
109 n fg class-len(fashion label), 
10 pretrained model-'imagenet') 
T1 elif args.model == 'ssd512': 
12 model = SSD512( 
13 n fg class-len(fashion label), 
14 pretrained model-'imagenet') 
15 
16 model.use preset ('evaluate') 
qun train chain - MultiboxTrainChain (model) 
18 if args.gpu »- 0: 
119 chainer.cuda.get device from id(args.gpu).use() 
20 model.to gpu() 
21 
122 data dir = r'/hdd1/data/FashionData' 
123 InDataset - FashionBboxDataset (data dir) 
124 
125 train size = len(InDataset) *9//10 
126 train data,test data = chainer.datasets.split_dataset_ 
random(InDataset, train size, seed-None) 
qom 
128 train = TransformDataset (train data,Transform (model.coder, 


model.insize, model.mean)) 
129 train iter = chainer.iterators.MultiprocessIterator (train, 


args.batchsize) 
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130 

TIE test iter = chainer.iterators.Seriallterator( 

132 test_data, args.batchsize, repeat=False, shuffle=False) 
133 

134 # initial lr is set to 1e-3 by ExponentialShift 

135 optimizer = chainer.optimizers.MomentumSGD|() 

36 optimizer.setup(train chain) 

137 for param in train chain.params(): 

138 if param.name == 'b': 

39 param.update rule.add hook (GradientScaling (2) ) 

40 else: 

141 param.update rule.add hook (WeightDecay (0.0005) 

42 

143 updater = training.StandardUpdater(train iter, optimizer, 


device-args.gpu) 
44 trainer - training.Trainer(updater, (50000, 'iteration'), 


args.out) 





45 trainer.extend( 

46 extensions.ExponentialShift('lr', 0.1, init-1e-3), 

47 trigger-triggers.ManualScheduleTrigger([40000, 45000], 

'iteration')) 

48 

49 trainer.extend( 

150 DetectionVOCEvaluator ( 

151 test iter, model, use 07 metric-True, 

SE label names-fashion label), 

53 trigger-(10000, 'iteration')) 

154 

d 55 log interval = 10, 'iteration' 

56 trainer.extend(extensions.LogReport (trigger-log interval)) 
cin trainer.extend(extensions.observe lr(), trigger-log 

interval) 

158 trainer.extend (extensions. PrintReport ( 
159 ['epoch', 'iteration', 'lr', 
160 'main/loss', 'main/loss/loc', 'main/loss/conf', 

161 'validation/main/map']), 

162 trigger-log interval) 

163 trainer.extend(extensions.ProgressBar(update interval-10)) 
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164 
165 


trainer.extend(extensions.snapshot(), trigger=(10000, 


"iteration')) 


166 
167 


trainer.extend( 


extensions.snapshot object(model, 'model iter 


[.updater.iteration]'), 





168 trigger-(50000, 'iteration')) 

169 

170 if args.resume: 

174 serializers.load_npz (args.resume, trainer) 
at 

173 trainer.run() 

174 

175 3f name == ' main ': 

176 main() 


接着 便 是 定义 整个 主 训练 函数 main， 这 里 使 用 了 argparse 来 解析 命令 行 参数 ， 便 于 
动态 使 用 各 种 参数 训练 ， 而 非 像 Faster RONN 示例 那样 每 次 改变 参数 都 得 修改 文件 内 容 ， 
比如 分 别 用 两 个 GPU 在 两 个 不 同 的 数据 集 上 同时 训练 两 个 模型 。 训 练 时 可 以 选择 使 用 
SSD300 或 是 SSD512 来 训练 ， 然 后 是 数据 集 和 迭代 器 的 准备 ， 这 里 选择 优化 算法 并 加 入 
最 后 使 用 trainer 将 各 个 部 件 关 联 起 来 ， 并 加 入 测试 和 输出 打印 统计 信息 等 操 


勾 子 函 数 。 


作 ， 执 行 训练 ， 如 python SSD train.py -model ssd300 -gpu 2 -out ssd result. 


训练 的 数据 集 和 Faster RCNN 中 的 一 样 ， 最 后 屏幕 输出 如 下 ， 其 最 终 的 map 约 为 


89.4%， 效 果 比 Faster RCNN 的 要 好 一 些 。 


33 
33 
33 
33 
33 
33 
33 
33 
33 
33 
33 
0.893618 


49900 1e-05 1.16788 0.245111 0.922764 
49910 1e-05 113762 0.229226 0.908395 
49920 1e-05 dag 0.237823 0.93974 

49930 1e-05 1.18025 0.243389 0.936862 
49940 1e-05 1.23874 0.254431 0.984308 
49950 1e-05 1.21642 0.262312 0.954105 
49960 1e-05 1.33804 0.267004 1.07103 

49970 1e-05 1.25447 0.266656 0.987816 
49980 Te-05 1.22534 0.226297 0.999041 
49990 1e-05 102613 0.241051 0.885079 
50000 1e-05 1.12852 0.245795 0.88272 


第 5 章 目标 检测 与 识别 


训练 完毕 后 可 用 类 似 于 Faster RCNN 示例 中 的 检测 识别 代码 进行 效果 查看 ， 只 需 将 
第 14-15 行 改 为 SSD300 或 SSD512 (如果 训练 中 使 用 的 是 SSD512) 即 可 ， 并 修改 第 10 
行 对 应 的 模型 文件 。 


import matplotlib.pyplot as plot 


$matplotlib inline 


import chainer 
from chainercv import utils 
from chainercv.visualizations import vis bbox 


from chainercv.links import SSD300 


gpuid = 0 

pretrained model = 'ssd_result/model_iter_50000' 
img_path = r'/tmp/test_imgs/10.jpg' 

label names = ('upper body','lower body', 'full body") 


model = SSD300( 
n fg class-len(label names), 


pretrained model-pretrained model ) 


if gpuid >= 0: 
chainer.cuda.get device from id(gpuid).use() 


model.to gpu() 


def detect img(img path): 
img = utils.read image(img path, color-True) 
bboxes, labels, scores = model.predict ([img]) 


bbox, label, score - bboxes[0], labels[0], scores[0] 


vis bbox( 
img, bbox, label, score, label names-label names) 


plot.show() 


图 5-5 是 使 用 SSD300 对 同样 的 测试 图 片 进行 检测 识别 的 结果 。 可 以 看 出 ，SSD300 
5 Faster RCNN 测试 的 差异 ， 这 里 第 4 张 图 片 ， 检 测 更 加 准确 ， 但 下 装 裙子 仍然 未 被 检 
测 出 来 ， 另外 第 二 张 和 第 三 张 Faster RCNN 中 识别 出 了 更 多 的 东西 而 SSD 没有 ， 到 底 如 
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[识别 就 涉及 到 了 原始 训练 数据 的 情况 ， 这 些 都 是 工程 中 需要 考虑 的 问题 ， 本 书 认 为 示 
中 SSD300 的 效果 暂时 优 于 Faster RCNN, 类 别 和 BBox 都 更 符合 人 类 的 视觉 感官 感受 。 
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图 5-5 SSD 检测 结果 


SSD 开源 实现 如 下 : 
https://github.com/chainer/chainercv/tree/master/examples/ssd 
https://github.com/amdegroot/ssd.pytorch 
https://github.com/kuangliu/pytorch-ssd 
https://github.com/ljanyst/ssd-tensorflow 
https://github.com/pierluigiferrari/ssd keras 
https://github.com/apache/incubator-MXNet/tree/master/example/ssd 


.3 YOLO 





5.3.1 YOLO V1, V2 和 V3 介绍 


Faster RCNN 和 SSD 都 会 生成 大 量 的 Anchor box， 计 算 量 还 是 很 大 ， 且 重复 多 ， 所 
以 速度 相对 较 慢 。YOLO 实现 了 一 种 简单 有 效 的 想法 ， 且 速度 快 。 
YOLO 字面 意思 为 You Only Look Once， 即 只 看 一 次 就 可 以 解决 问题 。 目 前 YOLO 
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有 三 个 版 本 : YOLO V1’, YOLO V25, YOLO V3”。YOLO 的 作者 Joseph Redmon”? 很 “ 萌 ” 
但 实力 强大 ， 经 常 “吐槽 ”其 他 网 络 模型 。 

YOLO 的 核心 思想 是 将 整 张 图 片 经 过 神经 网 络 直接 输出 BBox 位 置信 息 和 类 别 信 
息 。 最 终 的 输出 会 分 成 SXS 个 网 格 ， 如 果 某 真实 主体 中 心 落 在 这 些 格 中 ， 那 么 这 个 格 
子 就 负责 检测 这 个 主体 。 这 个 格子 一 般 会 预测 B 个 BBox， 每 个 BBox 除了 包括 位 置信 
息 ， 还 会 有 一 个 信心 值 Confidence， 利 用 Pr(Object)XIOU， 表 达 了 有 没有 主体 和 BBox 
准确 率 两 种 信息 。 有 主体 时 Pr(Object) 为 1， 没有 主体 时 Pr(Object) 73 0; IOU 为 预测 的 
BBox 与 真实 的 BBox 之 间 的 IOU 值 。 然 后 对 于 类 别 会 做 类 似 Softmax 的 操作 ， 假 如 有 
C 个 主体 类 别 ， 那 么 一 个 网 格 就 会 输出 (5XB+C) 个 信息 ， 那 么 所 有 网 格 的 输出 就 是 
SXSX (5XB+C) 的 量 。 

从 上 面 可 以 看 出 ， 每 个 YOLO 格子 只 负责 做 一 个 主体 的 检测 与 识别 ， 由 于 CNN 有 
采样 过 程 ， 分 辩 率 逐渐 减 小 ， 所 以 当 两 个 主体 十 分 接近 ， 而 且 主 体 又 特别 小 的 时 候 ， 
YOLO 的 效果 不 会 那么 好 ， 当 然 所 有 的 检测 算法 都 会 面临 这 一 挑战 。 在 预测 阶段 则 对 每 
个 网 格 进行 类 别 预测 , 取 高 于 某 个 阔 值 的 检测 结果 , 然后 再 进行 NMS 操作 得 到 最 终结 果 。 

为 了 提高 检测 的 准确 度 和 召回 率 ，YOLO V2 出 现 了 。 它 提高 了 训练 图 像 的 分 辩 率 ， 
同时 引入 了 Faster RCNN 中 Anchor box 的 思想 ， 并 设计 了 Darknet-19 分 类 网 络 结构 。 

YOLO V2 中 的 Anchor box 和 Faster RCNN 中 人 为 设 定 的 不 一 样 ， 它 会 对 标注 的 真 
S: BBox 进行 K-Means 聚 类 ， 自 动 提取 具有 代表 性 的 Anchor box。 

另外 YOLO V2 中 使 用 了 类 似 ResNet 跨 层 传递 的 方法 来 增加 细 精 度 特征 。 训 练 时 使 
用 的 也 是 多 尺度 图 像 ， 从 320 到 608， 它 们 是 32 的 倍数 ， 因 为 采样 倍数 为 32， 这 样 保 
证 了 输出 为 整形 。 

Darknet-19 分 类 网 络 结构 如 图 5-6 所 示 ， 主 要 使 用 了 3x3 加 池 化 ， 然 后 加 倍 通 道 数 ， 
再 利用 1X1 卷 积 降 通道 数 ， 最 后 使 用 全 局 平均 池 化 代替 YOLO V1 版 本 中 的 全 连接 做 预 
测 分 类 。 

检测 网 络 则 是 去 掉 分 类 网 络 最 后 的 1X 1 卷 积 层 ， 然 后 接 上 3 个 核 为 3X3 输出 通道 
为 1024 的 卷 积 层 ， 再 接 上 类 别 个 数 的 1X1 卷 积 层 。 


7 https://arxiv.org/pdf/1506.02640.pdf 
8 https://arxiv.org/pdf/1612.08242.pdf 
9 https://pjreddie.com/media/files/papers/YOLOv3.pdf 
10 https://pjreddie.com/static/Redmon%20Resume.pdf 
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Type Filters | Size/Stride Output 
Convolutional 32 3x3 224 x 224 
Maxpool 2x2/2 112 x 112 
Convolutional 64 3x3 112 x 112 
Maxpool 2x 2/2 56 x 56 
Convolutional 128 3x3 56 x 56 
Convolutional 64 1x1 56 x 56 
Convolutional 128 3x3 56 x 56 
Maxpool 2x2/2 28 x 28 
Convolutional 256 3x3 28 x 28 
Convolutional 128 1x1 28 x 28 
Convolutional 256 3x3 28 x 28 
Maxpool 2x2/2 14 x 14 
Convolutional 512 3x3 14 x 14 
Convolutional 256 1x1 14 x 14 
Convolutional 512 3x3 14 x 14 
Convolutional 256 IX 14 x 14 
Convolutional 512 3x3 14x14 
Maxpool 2x2/2 7x7 
Convolutional 1024 3x3 7x7 
Convolutional 512 1x1 TXT 
Convolutional 1024 3x3 TET 
Convolutional 512 1x1 TxT 
Convolutional 1024 3x3 7x7 
Convolutional 1000 1x1 EK 
Avgpool Global 1000 
Softmax 














图 5-6 Darknet-19 结构 


YOLO V2 中 的 输出 是 SXSX#anchorsX(5+#classes)， 即 每 个 Anchor box 会 负责 
己 的 位 置信 息 、 信 心 值 和 类 别 概率 ， 这 与 YOLO VAE. YOLO V2 速度 比 Faster 
RCNN 和 SSD 快 ， 但 牺牲 的 是 准确 度 。 

YOLO V3 是 YOLO 系列 最 新 版 本 ， 于 2018 年 发 表 ， 主 要 针对 的 是 小 目标 检测 ， 
其 结果 也 有 很 好 的 鲁 棒 性 ， 很 大 程度 上 解决 了 小 目标 难题 。YOLO V3 使 用 多 个 独立 的 
Logistic 分 类 器 替代 了 YOLO V2 中 的 softmax 分 类 器 ，Anchor box RET 9 个 ， 而 不 是 
YOLO V2 版 中 的 5 个， 而且 每 个 尺度 预测 3 个 BBox， 基 础 网 络 使 用 了 Darknet-533. $ 
优点 是 性 能 高 ， 背 景 误 检测 率 低 ， 通 用 性 强 ， 但 劣势 仍然 是 准确 度 和 召回 低 。 

3 个 版 本 的 YOLO 作者 都 在 Darknet 框架 下 开源 ， 由 C 和 CUDA 实现 ， 对 第 三 方 库 
依赖 较 少 ， 平 台 移植 性 强 ， 官 方 网 站 为 https://pjreddie.com/darknet/yolo/， 可 以 直接 下 载 
使 用 。 目 前 网 上 也 有 很 多 其 他 开源 版 本 的 实现 ， 读 者 可 自行 发 现 ， 本 书 将 以 YOLO V3 
的 开源 代码 作 示例 演示 。 


































































































5.3.2 Keras 版 本 YOLO V3 示例 





上 面 使 用 的 是 开源 版 本 "， 环 境 为 TensorFlow 1.8.0 5j Keras 2.1.5. 


11 https://github.com/qqwweee/keras-yolo3 
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如 果 使 用 TensorFlow 1.8.0 中 的 Keras 需要 对 各 个 Keras 包 的 导入 作对 应 的 修改 ,但 
在 转换 Darknet 时 会 出 错 , 在 训练 时 发 现 会 存在 skip_ mismatch 错误 , 因为 TensorFlow 1.8.0 
版 本 中 Keras API 没有 这 个 参数 ， 可 再 装 一 个 单独 的 Keras (pip install keras 一 2.1.5) 。 

可 能 有 的 读者 在 训练 时 会 发 现 一 直 在 用 CPU 没有 用 GPU， 这 是 只 装 了 tensorflow 
而 没有 装 tensorflow-gpu 的 原因 。 

对 于 CPU 和 GPU 的 使 用 情况 ， 可 以 用 命令 htop 和 nvidia-smi -1 3 来 查看 。 另 外 如 
果 读 者 有 多 块 GPU， 建 议 在 训练 文件 train.py 中 加 入 以 下 代码 : 


import os 
os.environ["CUDA VISIBLE DEVICES"] = "0" # GPU ID 


import tensorflow as tf 
config = tf.ConfigProto() 


config.gpu options.allow growth = True 


from keras.backend.tensorflow backend import set session 


set session(tf.Session (config=config) ) 


keras-yolo3 开源 版 本 主要 目录 结构 如 下 ， 笔 者 这 里 多 了 几 个 txt 文件 ， 后 面 会 解释 
来 源 : 


keras-yolo3 

L— 2007 test.txt 

I— 2007 train.txt 

L— 2007 val.txt 

L— convert.py 

|—— font 

| 上 六 一 FiraMono-Medium. otf 
| L—— si, Open Font License.txt 
L— LICENSE 

F— logs 

| L—— 000 

|- 一 一 model data 

| | 一 一 coco classes.txt 

| 上 一 my yolo.h5 

| 


L— voc classes.txt 
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| -一 一 yolo anchors.txt 
| 一 一 yolo.h5 

| [一 一 yolo weights.h5 
L— README .md 

L—— resluts.jpg 

| train.npz 

| train.py 

I-— voc annotation.py 
一 -一 yolo3 

| 一 一 EE 

| | model.py 

| —— . pycache . 

| L—— utils.py 

L— yolo.py 

上 广 -一 yolov3.cfg 


[一 一 yolo video.py 


首先 从 git 上 拉 取 作者 的 源码 ， 网 址 如 下 ， 然 后 制作 数据 集 ， 这 里 使 用 公开 的 数据 
集 VOC-2007， 将 其 下 载 到 一 个 空间 足够 的 目录 ， 再 解压 。 

wget https://pjreddie.com/media/files/VOCtrainval 06-Nov-2007.tar 

wget https://pjreddie.com/media/files/VOCtest 06-Nov-2007.tar 


接着 使 用 voc. annotation.py 制作 标注 文件 和 标签 文件 ， 这 里 作 了 以 下 改动 ， 将 其 在 
源码 目录 下 生成 标注 文件 和 标签 文件 ， 具 体 代 码 如 下 : 


# voc annotation.py 


1 import xml.etree.ElementTree as ET 


2 
dosets-pQ200/4t 7 "Eran. ye O 200v va v2007 a test) 
4 classes = ["aeroplane", "bicycle", "bird", "boat", "bottle", 


"bus", "car", "cat", "chair", "cow", "diningtable", "dog", "horse", 
"motorbike", "person", "pottedplant", "sheep", "sofa", "train", 
"tymonitor"] 

5 

6 basedir = r'/home/dataset' 

7 


8 def convert_annotation (year, image_id, list_file): 


152 


第 5 章 HWS} 


只 别 


9 in file = open (basedir+f'/VOCdevkit/VOC{year}/Annotations/ 
[image id]).xml') 

10 tree-ET.parse(in file) 

EE root = tree.getroot () 

t2 

T3 for obj in root.iter('object'): 

14 difficult — obj.find('difficult').text 

E cls = obj.find('name').text 

16 if cls not in classes or int (difficult) ==1: 

17 continue 

18 cls id = classes.index (cls) 

19 xmlbox = obj.find('bndbox') 

20 b = (int(xmlbox.find('xmin').text), int(xmlbox. 


find('ymin').text), int(xmlbox.find('xmax').text), int(xmlbox. 


find(' ymax') . text) ) 


ZU IJusteHloswrrte(^ 2 4 T m goimülstr(a) for a nib) te 
trlcls idh) 

22 

23 for year, image_set in sets: 

24 image_ids = open (basedir+f'/VOCdevkit/VOC{year}/ImageSets/ 
Main/{image_set}.txt').read().strip().split () 

25 list file = open(f'{year} {image set}.txt', 'w') 

26 for image id in image ids: 

27 list_file.write (f£' {basedir} /VOCdevkit/VOC{year}/ 
JPEGImages/ {image _id}.jpg') 

28 convert_annotation(year, image_id, list_file) 

29 list file.write('Wn') 

30 list file.close() 


以 上 代码 主要 是 添加 了 第 6 行 basedir 为 存放 VOC 数据 集 的 父 目 录 ， 然 后 修改 了 对 
应 的 第 11 行 、 第 26 行 和 第 29 行 代 码 。 注 意 第 4 行 类 别 信息 的 顺序 需要 和 model_data/ 
voc classes.txt 顺序 保持 一 致 。 然 后 执行 python voc_annotation.py， 便 可 以 在 keras-yolo3 
目录 下 生成 2007-train/val/test.txt 三 个 文件 。 可 以 使 用 tail 查看 文件 见 容 ， 三 个 文件 内 容 
格式 一 样 : 


$ tail 2007 train.txt 
/home/dataset/VOCdevkit/VOC2007/JPEGImages/009920.jpg 
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S 213, 321, 419 E 

/home/dataset/VOCdevkit/VOC2007/JPEGImages/009926.jpg 
119,84,238,285,14 298,6, 490,359,14 77,157,280,323,1 299,146, 443,375,1 

/home/dataset/VOCdevkit/VOC2007/JPEGImages/009938.jpg 
ID Ae ee re H 

/home/dataset /VOCdevkit/V0OC2007/JPEGImages/009940.jpg 
218,114,387,375,2 135,133,365,375,2 

/home/dataset/VOCdevkit/VOC2007/JPEGImages/009942.jpg 
2/0015,221520/11442591365,332:144226572750073327-14 

/home/dataset /VOCdevkit/VOC2007/JPEGImages/009944.jpg 
97,12073295291513214573879057290514 


这 就 是 最 终 训 练 所 需要 的 文件 ， 每 行 的 格式 为 : 图 片 绝对 路 径 BBoxl BBox2 … 
BBoxN， 注 意 使 用 空格 隔 开 ，BBox 的 格式 则 为 : x_min,y_min,;x_max,y_max,class_ id， 注 
意 没有 空格 ， 有 空格 就 会 解析 错误 ， 即 认为 空格 两 侧 为 图 片 路 径 或 BBox， 而 不 是 BBox 
的 具体 内 容 。 

如 果 读 者 需要 针对 自己 的 数据 集训 练 ， 那 么 只 需要 按 格 式 “ 图 片 绝对 路 径 BBoxl 
BBox2 … BBoxN” 准 备 文 件 即 可 ， 另 外 class id 需要 和 自己 的 类 别 标签 文件 Cyour_ 
classes) 一 一 对 应 起 来 。 

然后 下 载 Darknet 上 YOLO V3 的 权重 : weet https://pjreddie.com/media/files/yolov3. 
weights. 

再 执行 python convert.py yolov3.cfg yolov3.weights model data/yolo.h5 进行 模型 转换 ， 
第 三 个 参数 为 model_data/yolo.h5 的 原因 是 训练 文件 train.py PAY main 函数 直接 会 调用 
这 个 文件 。 再 将 annotation. path 改 这 2007_train.txt， 示 例 代码 如 下 : 


annotation path = '2007 train.txt' 
data path = 'train.npz' 


output path = 'model data/my yolo.h5' 


现在 执行 python train py 进行 训练 ， 屏 幕 输出 如 下 。 最 终 模 型 会 保存 在 model data/ 
my_yolo.h5。 在 log 目录 下 还 有 很 大 的 日 志文 件 ， 如 果 不 用 了 可 以 直接 删除 。 


Epoch 26/30 
2250/2250 [=====================] - 33s 15ms/step - loss: 12.6719 - 
val loss: 13.9407 
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Epoch 27/30 
2250/2250 [=====================] - 33s 15ms/step - loss: 12.6127 - 
val loss: 13.7355 
Epoch 28/30 
2250/2250 [=====================] - 33s 15ms/step - loss: 12.5643 - 
val loss: 13.6421 
Epoch 29/30 
2250/2250 [=====================] - 34s 15ms/step - loss: 12.4544 - 
val loss: 13.4398 
Epoch 30/30 
2250/2250 [=====================] - 33s 15ms/step - loss: 12.3406 - 
val loss: 13:4213 





现在 就 可 以 作 测试 了 ， 由 于 本 书 没有 使 用 ubuntu 桌面 环境 ， 所 以 在 yolo.py 的 
detect image 函数 返回 前 加 了 一 句 image.save(reslutsjpg)， 同 时 在 文件 起 始 处 加 了 GPU 
使 用 设置 ， 如 训练 文件 一 样 。 

图 5-7 是 在 网 上 找到 的 一 张 图 片 ， 测 试 效果 还 是 非常 不 错 ， 对 距离 很 近 的 主体 算法 
检测 识别 效果 挺 好 ， 但 不 可 避免 也 存在 漏 检 ， 如 最 右边 的 自行 车 。 





v KE 3 A d 


图 5-7 YOLO v3 检测 结果 


另外 还 有 对 视频 进行 检测 ， 读 者 可 以 自行 尝试 。 
目前 在 电 商 领域 香港 中 文大 学 公开 了 一 个 数据 集 DeepFashion, 里 面 内 容 十 分 丰富 。 
读者 可 以 利用 YOLO V3 在 DeepFashion 上 做 训练 测试 ， 比 如 上 装 、 下 装 、 全 身 装 ( 需 
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要 对 其 标注 文件 作 相应 处 理 ) 。 另 外 关于 数据 的 train txt 文件 ， 由 于 训练 文件 train.py 中 
分 割 使 用 的 是 split(' ") 函数 ， 如 果 图 片 绝对 路 径 有 空格 ， 而 正好 图 片 又 只 有 一 个 BBox， 
那么 可 以 rsplit('', 1) 来 蔡 换 前 述 split 函数 。 

train.py FA main 函数 的 常量 也 得 重新 定义 ， 可 作 如 下 类 似 定义 ， 其 中 yolo 
anchors 可 以 使 用 聚 类 操作 获取 新 值 ， 这 样 更 加 准确 : 


annotation path = 'clothes train.txt' 

data path = 'clothes train.npz' 

output path = 'model data/clothes yolo.h5' 

log dir = 'logs/000/' 

classes path = 'model data/clothes_classes.txt' 


anchors path = 'model data/yolo anchors.txt' 


如 果 读 者 在 训练 过 程 中 出 现 MemoryError， 那 么 表示 训练 数据 集 太 大 了 ， 可 以 分 成 
几 个 小 份 训 练 。 

下 面 是 各 个 框架 下 YOLO 不 同 版 本 的 开源 实现 ， 其 中 ChainerCV 已 经 在 官方 repo 
中 实现 了 YOLO V3”"”， 有 兴趣 的 读者 可 深入 研究 其 完整 实现 ， 相 信 在 这 个 过 程 中 大 家 对 
其 训练 与 测试 的 细节 可 以 理解 的 更 加 透彻 。 

https://github.com/thtrieu/darkflow 

https://github.com/WojciechMormul/yolo2 

https://github.com/longew/yolo2-pytorch 

https://github.com/marvis/pytorch-yolo2 

https://github.com/ruiminshen/yolo2-pytorch 

https://github.com/allanzelener/YAD2K 

https://github.com/chainer/chainercv/blob/master/chainercv/links/model/yolo/yolo v3.py 

https://github.com/yukitsuji/Yolo v2 chainer 

https://github.com/leetenki/YOLOv2 

https://github.com/zhreshold/mxnet-yolo 

https://github.com/ayooshkathuria/pytorch-yolo-v3 

https://github.com/qqwweee/keras-yolo3 


12 https://github.com/chainer/chainercv/tree/master/examples/detection 
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不 同 的 开源 所 使 用 的 环境 〈 包 的 版 本 ) 一 般 不 同 ， 故 如 果 读 者 使 用 的 环境 
不 同 ， 那 么 就 需要 对 应 修改 源码 。 











5.4 本 章 总 结 


本 章 介 绍 了 三 大 主流 的 目标 检测 算法 ， 检 测 准 确 度 由 高 到 低 分 别 是 : Faster 
RCNN、SSD 和 YOLO， 但 检测 速度 则 是 由 慢 到 快 。 当 然 这 是 一 般 情况 下 ， 具 体 业 务 场 
景 可 能 情况 不 同 。 

在 实际 应 用 中 需要 在 速度 与 准确 度 之 间作 权衡 ， 比 如 实时 性 要 求 高 的 自然 对 速度 相 
对 更 加 看 重 ， 而 线 下 等 场景 时 间 概 念 不 需要 那么 强 ， 准 确 度 当然 就 是 首要 指标 。 

这 些 检测 识别 算法 都 会 存在 漏 检 或 检 错 等 情况 ， 这 是 可 以 理解 的 ， 因 为 算法 前 期 做 
了 很 多 强 假设 ， 然 后 在 这 些 假设 下 进行 解决 问题 的 算法 设计 。 所 以 在 实际 应 用 中 ， 需 要 
深入 理解 业务 场景 是 否 与 算法 匹配 ， 比 如 书法 ， 钢 笔 和 毛笔 都 是 笔 ， 但 写 出 的 字 差异 是 
非常 大 的 。 

如 果 有 数据 标注 的 需求 ,目前 网 上 有 很 多 工具 可 以 实现 这 一 功能 , 比如 LabelImg 等 。 
对 于 开源 实现 可 以 参照 论文 去 分 析 开 源 代码 ， 比 如 网 络 的 定义 、 损 失 函数 的 选择 和 实现 
等 。 里 面 常 常 含有 非常 多 的 矩阵 操作 以 及 数据 处 理 流 程 ， 而 且 很 多 开源 代码 不 一 定 完全 
符合 原 论文 ， 但 如 果实 现 的 效果 已 经 非常 好 了 ， 那 么 从 工程 角度 来 看 ， 这 些 差 异 是 可 以 
忽略 的 。 
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图 像 分 割 通 俗 地 讲 是 将 图 像 细 分 为 多 个 图 像 子 区 域 的 过 程 ， 使 得 图 像 更 加 易于 理解 
和 分 析 。 图 像 分 割 主要 用 于 定位 物体 的 边界 ， 即 将 每 个 像素 进行 分 类 ， 使 得 同一 物体 具 
有 共同 的 类 别 属性 ， 即 可 展现 出 共同 的 视觉 特性 。 分 割 时 一 般 会 使 用 某 种 属性 〈 颜 色 、 
亮度 、 纹 理 等 ) 的 相似 度量 方法 , 使 得 同一 个 子 区 域 中 的 像素 在 此 方法 的 计算 下 都 很 相似 ， 
而 不 同 区 域 则 差异 很 大 ， 即 : 类 内 差异 小 ， 类 间 差 异 大 。 

图 像 分 割 应 用 领域 也 非常 广泛 ， 包 括 医学 影像 、 自 动 驾 驶 、 交 通 控制 、 人 脸 识 别 、 
指纹 识别 等 。 

面 对 各 种 现实 场景 ， 分 割 方法 种 类 多 样 ， 但 目前 还 没有 特别 统一 普 适 的 方法 ， 需 要 
与 特定 的 业务 相 结 合 ， 才 可 能 有 效 地 解决 对 应 的 业务 问题 。 

传统 的 分 割 算 法 主要 有 K-means 聚 类 算法 、 边 缘 检 测 、 区 域 生长 、 水 平 集 、 直 方 图 、 
图 论 等 。 
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K-means 聚 类 算法 ， 它 首先 会 从 总 的 数据 对 象 中 选择 k 个 对 象 作 为 初始 的 聚 类 中 心 ， 
然后 扫描 剩 下 的 其 他 对 象 ， 按 其 与 各 聚 类 中 心 的 相似 距离 进行 划分 ， 然 后 在 每 个 新 的 划 
分 中 重新 计算 聚 类 中 心 ， 不 断 重复 这 两 步 ， 直 到 中 心 变化 不 大 或 达到 最 大 迭代 次 数 。 此 
处 的 相似 距离 常常 指 像素 与 聚 类 中 心 的 绝对 差异 或 差异 的 平方 ， 这 种 差异 通常 有 颜色 、 
纹理 、 位 置 或 它们 的 加 权 组 合 。 该 算法 对 初始 聚 类 中 心 和 聚 类 个 数 依赖 较 强 。 

边缘 检测 法 ， 它 是 提取 图 像 中 不 连续 部 分 的 特征 ， 对 图 像 的 灰 度 变化 进行 度量 。 目 
前 常用 的 边缘 检测 算 子 有 梯度 、Canny、Sobel 等 ，OpenCV 中 有 许多 实现 。 

深度 学 习 方面 的 算法 则 是 基于 CNN， 比 如 FCN、SegNet、DeepLab、RefineNet、 
PSPNet, Mask R-CNN、MaskLab、FCIS 和 PANet 等 。 

本 章 将 根据 不 同 的 分 割 粒度 ， 介 绍 三 个 层面 的 图 像 分 割 算 法 : 物体 分 割 、 语 义 分 割 
和 实例 分 割 。 


6.1 物体 分 害 


首先 ， 面 对 一 个 场景 时 ， 人 类 常常 会 自动 地 注意 到 某 些 他 们 感 兴趣 的 区 域 ， 而 选择 
性 地 忽略 不 感 兴趣 的 区 域 ， 感 兴趣 区 域 (ROI) 也 常 称 为 显著 性 区 域 ， 这 就 是 所 谓 视觉 
注意 机 制 (Visual Attention Mechanism, VA) 。 

那么 研究 VA 有 什么 用 呢 ? 简单 想象 两 个 场景 ， 一 个 是 广告 投放 ， 在 广告 图 片 中 ， 
要 考虑 受众 更 关心 的 是 什么 ， 怎 样 做 出 更 好 的 广告 。 另 一 个 是 安防 领域 ， 如 行人 检测 、 
人 脸 识别 、 异 常 举动 检测 等 。 其 实 ， 目 标 检测 与 识别 也 是 VA 的 一 部 分 ， 只 不 过 现在 不 
仅仅 要 求 给 出 一 个 矩形 框 ， 还 需要 更 加 细 的 信息 。 目 前 常常 包括 物体 分 割 与 注视 点 预测 ， 
本 书 只 关注 物体 分 割 。 如 图 6-1 所 示 展 示 了 分 割 与 注意 机 制 。 

物体 分 割 初级 的 操作 就 是 将 图 像 的 前 景 和 背景 进行 分 割 ， 前 景 一 般 包 含 大 家 关心 的 
物体 ， 本 节 主 要 讲解 Grab Cuts 算法 ， 并 做 相应 示范 。 

要 了 解 Grab Cuts， 首 先 需要 了 解 Graph Cuts. Graph Cuts 属于 图 分 割 技术 ， 可 用 
于 前 景 背 景 分 割 (Image Segmentation) 、 立 体 视 觉 (Stereo Vision) 和 抠 图 (Image 
Matting) 等 ， 它 将 图 像 分 割 与 图 论 (Graph Theory) 中 的 最 小 割 (min cut) 联系 起 来 。 
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图 6-1 物体 分 割 与 注视 点 预测 
图 6-2 展示 了 Graph Cuts 将 图 像 (Omage) 转换 为 图 (Graph) 的 过 程 : 首先 将 图 像 
中 的 像素 点 转换 为 无 向 图 <VE> 中 的 顶点 (Vertex) ， 相 邻 像 素 间 用 实 边 连 接 。 在 图 中 
添加 两 个 Terminal 顶点 ， 分 别 用 S 和 T 工 表示 ， 可 理解 为 代表 前 景 和 背景 ， 这 两 个 点 之 外 
的 其 他 点 都 会 与 这 两 个 顶点 相连 ， 就 是 图 6-2 中 的 虚线 边 。 

















Original image 








图 6-2 Graph Cut 图 转换 


图 6-2 中 每 条 边 都 有 一 个 非 负 的 权 值 We, 可 理解 为 cost( 代 价 或 者 费用 ) 。 一 个 cut CH) 
E) 就 是 图 中 边 集合 E 的 一 个 子 集 ， 这 个 cut 的 cost 就 是 子 集 内 所 有 边 〈 虚 边 和 实 边 ) 
权 值 的 总 和 ， 不 同 cut 间 的 边界 就 是 前 景 和 背景 的 分 界 。 如 果 一 个 cut 内 所 有 边 的 权 值 
之 和 最 小 ， 那 么 它 就 是 min cut。 如 果 将 图 像 转换 为 这 种 S-T 图 ， 然 后 再 找到 两 个 互补 的 
cuts， 那 么 就 完成 了 图 像 分 割 ， 找 出 了 前 景物 体 。 


1 http://openaccess.thecvf.com/content_cvpr_2018/CameraReady/0178.pdf 
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Boykov 和 Kolmogorov 在 Interactive Graph Cuts for Optimal Boundary & Region 
Segmentation of Objects in N-D Images 文章 ?中 发 明了 max-flow/min-cut 算法 来 获取 S-T 
图 的 min cut， 分 割 结果 取决 于 边 的 权 值 。 那 么 怎样 确定 边 的 权 值 呢 ? 前 景物 体 可 以 视 为 
1， 背 景 视 为 0， 那么 图 像 分 割 的 结果 就 是 对 每 个 像素 进行 二 分 类 ， 在 S-T 图 中 就 可 以 最 
小 化 前 景 cut 和 背景 cut 的 总 cost， 表 达 如 下 : 


Cost(L) = aR(L) + B(L) 


工 表 示 整 个 图 像 所 有 像素 点 标签 的 集合 ， 可 能 的 取 值 分 别 为 0 和 1， 整 个 详细 的 表 
达 如 表 6-1 所 示 。 
表 6-1 Graph Cuts 损 失 表 达 


R(D)= Y ROU R(1)=-1, Pl 
zi R(0)——1, Prim 


H CT 1 


B, = 
(e) «c expC 25? dist(p,q) 


B(L)= È BA *6,.L) 
{pg}eN Oif L-I, 
Lif I7 I, 


SE 


RL) 表示 区 域 cost， 而 BL) 则 表示 边界 的 cost, a 表示 区 域 与 边界 之 间 的 cost 权衡 ， 
为 0 时 就 只 考虑 边界 效果 。Re(Z) 表示 像素 p 分 配 标签 二 的 cost， 可 以 通过 比较 像素 p 
的 灰 度 与 前 景 的 灰 度 直方 图 获取 ， 即 像素 p 属于 标签 的 概率 ， 即 希望 最 大 化 这 个 概率 ， 
或 最 小 化 概率 的 对 数 的 负 值 。 

BL) 则 表示 相 邻 像素 的 惩罚 ， 体 现 了 边界 效应 。p 和 gq BA, Bip, 9} 就 越 大 ， 而 
了 和 g 差异 越 大 ， 则 Bip, 9} 就 越 小 。 通 过 这 样 的 方式 ， 将 其 算 进 总 的 cost 中 ， 即 可 考 
虑 边界 效应 。 具 体 推理 可 查看 原 论文 。 

Grab Cut 则 是 Graph Cut 的 进 阶 版 本 ， 使 用 的 迭代 方法 。 视 觉 库 OpenCV 根据 

“GrabCut” - Interactive Foreground Extraction using Iterated Graph Cuts’ 实现 了 Grab Cut 

算法 。 该 算法 利用 少量 与 用 户 的 交互 操作 ， 通 过 图 像 中 的 纹理 与 边界 信息 就 可 以 得 到 比 
较 好 的 分 割 结 果 。 


2 http://www.csd.uwo.ca/~yuri/Papers/iccv01.pdf 
3 https://cvg.ethz.ch/teaching/cvl/2012/grabcut-siggraph04.pdf 
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Graph Cut 基于 的 是 灰 度 直方 图 ， 而 Grab Cut 使 用 的 是 RGB 三 通道 的 混合 高 斯 模型 
(Gaussian Mixture Model, GMM) ， 有 一 个 迭代 学 习 的 过 程 。 

在 Grab Cut 算法 中 ， 用 户 需要 框 选 前 景区 域 ， 算 法 自动 会 将 框 外 的 部 分 视 为 背景 ， 
同时 支持 不 完全 标注 。 

此 处 使 用 OpenCV 中 的 例子 “ 作 示 范 ， 但 原 例子 中 画 框 使 用 的 是 鼠标 右键 ， 在 操作 
过 程 中 很 难 达 到 效果 ， 所 以 改 为 了 中 键 ， 修 改 部 分 代码 如 下 : 


def onmouse (event, x, y,flags, param): 
global img, img2, drawing, value, mask, rectangle, rect, rect_or_ 


mask, ix, iy, rect_over 


# Draw Rectangle 
if event == cv.EVENT_MBUTTONDOWN: 
rectangle = True 


ix,iy = x,y 


elif event == cv.EVENT MOUSEMOVE: 
if rectangle == True: 
img = img2.copy() 
cv.rectangle (img, (ix,iy), (x,y) , BLUE, 2) 
rect = (min(ix,x),min(iy,y),abs(ix-x),abs(iy-y)) 
rect or mask - 0 
elif event == cv.EVENT MBUTTONUP: 
rectangle - False 
rect over — True 
cv.rectangle (img, (ix, iy), (x,y) , BLUE, 2) 
rect = (min(ix,x),min(iy,y),abs(ix-x),abs(iy-y)) 
rect or mask = 0 
print(" Now press the key 'n' a few times until no further 
change Mn") 
整个 的 操作 流程 如 下 : 
首先 在 键盘 上 按 1， 使 用 鼠标 中 键 画 出 一 个 矩阵 框 来 框 选 前 景 ， 然 后 再 按键 盘 上 的 
n 键 进行 处 理 ， 便 能 得 到 初始 分 割 结果 ; 如 果 不 满意 ， 则 可 使 用 以 下 几 种 方式 进行 细微 
的 调整 。 


4 https://github.com/opencv/opencv/blob/master/samples/python/grabcut.py 
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COD 按键 盘 上 的 1+ 鼠标 左 键 : 











画 出 明确 是 前 景 的 部 分 ， 白 色 
(2) 按键 盘 上 的 0+ 鼠标 左 键 : 画 出 明确 是 背景 的 部 分 ， 黑 色 
G) 按键 盘 上 的 2+ 鼠标 左 键 : 画 出 可 能 是 背景 的 部 分 ， 绿 色 
(4) 按键 盘 上 的 3+ 鼠标 左 键 : 画 出 可 能 是 前 景 的 部 分 ， 红 色 





(5) 按键 盘 上 的 n 进行 处 理 并 输出 结果 。 
(6) 按键 盘 上 的 s 进行 保存 。 
CD 按键 盘 上 的 rt 取消 所 有 操作 ， 即 reset. 


最 终 的 结果 


果 如 图 6-3 Pram, WUE, MRR 





难以 区 分 ， 那 么 











张 图 ， 而 真正 想 分 割 好 目标 对 象 ， 


有 和 前 景 边界 很 相似 (最 后 一 
其 分 割 效 果 相 对 较 差 ， 而 如 果 背 景 和 前 景 差 异 比较 明显 


相对 较 好 ， 如 第 一 则 需要 结合 几 种 操作 ， 如 第 二 





张 图 ) ， 
， 那 么 分 割 效果 
张 图 ; 


第 三 张 图 的 结果 右边 中 部 有 部 分 分 割 成 背景 了 ， 此 时 应 该 使 用 按键 1+ 鼠标 左 键 进行 前 


景明 确 。 


























Z| 6-3 Grab Cut 物体 分 割 结果 





图 像 分 割 
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图 6-3 Grab Cut 物体 分 割 结果 ( 续 ) 


所 以 Grab Cut 这 种 方法 也 有 一 定 的 适用 范围 ， 读 者 需要 结合 真实 场景 来 运行 它 。 另 
外 深度 学 习 也 在 物体 分 割 方面 有 一 些 论文 ， 比 如 Deep Image Matting’, Joker 有 对 此 文 
章 进行 复 现 的 开源 项 目 “。 





6.2 语义 分 割 





物体 分 割 中 是 将 图 像 中 的 主体 与 背景 分 离开 来 ， 常 常 利 用 的 是 灰 度 值 的 不 连续 和 相 
似 的 性 质 ， 不 需要 区 分 主体 间 的 差别 。 

而 语义 分 割 〈(Semantic Segmentation) 主要 是 在 像素 级 别 进行 分 类 ， 同 类 别 的 分 为 
一 类 ， 比 如 某 个 像素 是 猫 、 狗 、 人 、 车 等 ， 它 比 目 标 检测 预测 的 边框 更 加 精细 ， 如 图 6-4 
所 示 。 

可 以 简单 将 语义 分 割 任务 理解 为 : 用 一 种 颜色 代表 一 个 类 别 ， 用 另 一 种 颜色 代表 另 
外 一 个 类 别 ， 将 所 有 类 别 用 不 同 颜色 代表 ， 然 后 对 原始 图 片 对 应 大 小 的 白 纸 上 进 行 涂 色 
操作 (类别 当然 就 不 能 有 白色 代表 ), 尽量 让 涂 的 结果 与 原始 图 片 表达 的 类 别 接近 。 综 上 ， 














5 https://arxiv.org/abs/1703.03872 
6 https://github.com/Joker316701882/Deep-Image-Matting 
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语义 分 割 就 是 从 像素 级 别 理解 和 识别 图 片 的 内 容 ， 其 输入 为 图 片 ， 输 出 则 是 与 输入 图 片 
尺寸 的 分 割 标记 ， 每 个 像素 会 被 识别 为 一 个 类 别 ， 而 物体 分 割 的 输出 则 是 一 张 与 输入 
尺寸 的 二 值 灰 度 蒙 版 图 。 














可 














可 











e UMM 





图 6-4 语义 分 割 

语义 分 割 在 2015 年 之 前 主要 使 用 人 工 特征 + 图 模型 的 方式 ， 而 在 2015 年 之 后 便 出 
现 了 大 量 基于 CNN 的 深度 学 习 解 决 思路 。 

目前 深度 学 习 在 语义 分 割 的 应 用 主要 有 FCN、SegNet、DeepLab、Refine 和 
NetPSPNet 等 。 由 于 深度 学 习 很 大 程度 上 得 靠 大 量 的 数据 样本 来 支持 其 训练 ， 而 对 于 
语义 分 割 来 说 ， 这 样 的 样本 就 更 难 获取 ， 现 在 常用 的 公开 语义 分 市 数据 集 有 PASCAL 
voc’, MS COCO, ADE20K’, Cityscapes", A2D", SYNTHIA", CamVid" 和 LIP 
等 ， 所 以 在 实际 工程 中 ， 语 义 分 割 操作 难度 系数 比较 大 。 





7 http://host.robots.ox.ac.uk/pascal/VOC/ 

8 http://cocodataset.org/#home 

9 http://groups.csail.mit.edu/vision/datasets/ADE20K/ 
10 https://www.cityscapes-dataset.com/ 

11 http;//web.eecs.umich.edu/-jjcorso/r/a2d/ 

12 http://synthia-dataset.net/ 

13 http://mi.eng.cam.ac.uk/research/projects/VideoRec/ 
14 http://www.sysu-hcp.net/lip/ 
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6.2.1 FCN 与 SegNet 


1. FCN 


FCN 全 名 为 Fully Convolutional Networks? (全 卷 积 网 络 ) ， 在 加 州 伯 克利 大 学 诞生 ， 
其 结构 如 图 6-5 所 示 。 










forward /inference 





backward/learning 


E» 
Í Í E e 21 
CA SO 
Se LAGE zb cb d oi 
a 











图 6-5 FCN 结构 


在 图 像 分 类 网 络 中 ， 最 后 的 全 连接 层 可 以 理解 为 使 用 了 与 输入 大 小 一 样 的 卷 积 遍历 
整个 输入 ， 输 出 的 通道 数 为 所 有 类 别 的 个 数 ， 即 将 整 张 图 片 映 射 为 一 个 类 别 个 数 的 长 向 
量 ， 然 后 做 softmax 和 argmax， 选 出 计算 机 认为 概率 最 大 的 对 应 的 下 标 ， 完 成 整 张 图 片 
的 分 类 过 程 。 如 果 将 这 里 的 整 张 图 片 换 为 像素 ， 那 么 就 可 以 达到 像素 级 别 的 分 类 了 ， 即 
语义 分 割 。 

对 每 个 像素 此 时 所 使 用 的 就 是 1X 1 的 卷 积 ， 其 通道 数 为 主体 类 别 数 + 背景 类 别 ， 
以 此 替换 全 连接 层 ， 达 到 整个 网 络 都 使 用 卷 积 操作 的 效果 。 


15 https://arxiv.org/abs/1411.4038 
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传统 的 CNN 一 般 会 有 下 采样 的 效果 ， 即 输入 的 图 片 在 宽 高 维度 会 降 尺 寸 ， 分 辩 率 
降低 ， 这 可 以 通过 卷 积 的 步 长 来 实现 〈 池 化 可 当 作 特殊 的 卷 积 ， 其 步 长 为 2) ， 但 最 终 
要 进行 原 图 像素 级 别 的 分 类 ， 就 需要 一 个 上 采样 的 效果 ， 将 下 采样 的 结果 还 原 为 输入 图 
片 的 分 辩 率 ， 如 果 输 入 为 HXWX3，RGB 色彩 空间 ， 那 么 期 望 得 到 的 输出 矩阵 大 小 为 
HX WX (#classes+1)， 然 后 就 可 以 对 每 个 像素 进行 分 类 了 。 

FCN 主要 就 是 做 了 以 上 步骤 ， 使 用 了 转 置 卷 积 与 反 池 化 的 操作 ， 达 到 了 将 输入 图 片 
经 过 常规 CNN 后 的 结果 还 原 分 辩 率 的 效果 ， 另 外 不 同 尺 度 间 使 用 了 类 似 ResNet 跨 层 连 
接 (Skip-Layer) 的 操作 来 增强 信息 传递 ， 以 求 达 到 更 好 的 分 割 效果 。FCN 同时 去 掉 了 
部 分 损失 空间 信息 的 操作 ， 如 全 局 池 化 ， 并 使 用 预 训练 参数 来 加 快 整个 训练 。 

转 置 卷 积 操作 主要 是 在 输入 时 进行 外 围 补 0 (Padding) 或 插 孔 补 0， 然 后 卷 积 ， 达 
到 上 采样 的 目的 ， 但 这 一 技术 在 后 面 的 发 展 渐渐 不 被 采用 ， 故 读者 有 兴趣 可 以 自行 了 解 
其 原理 。 

FON 的 优点 是 进行 像素 级 别 端 到 端的 训练 ， 缺 点 是 对 细节 处 理 不 够 好 ， 没 有 充分 考 
虚像 素 间 的 空间 相关 性 。 

目前 FCN 各 种 开源 实现 较 多 ， 比 较 有 名 的 有 以 下 几 个 : 


https://github.com/brianhuang1019/FCN-pytorch 
https://github.com/wkentaro/pytorch-fen 
https://github.com/wkentaro/fen 
https://github.com/apache/incubator-MXNet/tree/master/example/fen-xs 
https://gluon-cv. MXNet.io/build/examples segmentation/train fcn.html 
https://github.com/JihongJu/keras-fcn 


其 中 GluonCV (0.3.0 WAS) 框架 中 例子 可 能 会 报错 , 估计 是 现在 处 于 快速 开发 阶段 ， 
所 以 API 还 不 稳定 ， 笔 者 修改 了 其 中 的 部 分 代码 ， 可 以 训练 ， 修 改 后 的 代码 如 下 : 


# train fcn.py 
import random 
from tqdm import tqdm 


import mxnet as mx 


E 

2 

3 import numpy as np 

4 

5 from mxnet import gluon, autograd 
6 
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7 import gluoncv 

8 from gluoncv.utils.parallel import * 

9 from gluoncv.model zoo.segbase import 
SoftmaxCrossEntropyLossWithAux 

10 

11 model - gluoncv.model zoo.get fcn(dataset-'pascal voc', 
backbone-'resnet50', pretrained-True) 

T2 

13 from mxnet.gluon.data.vision import transforms 


14 input transform = transforms .Compose ([ 


ES: transforms.ToTensor(), 

16 transforms.Normalize([.485, .456, .406], [.229, .224, 
SE) 

alge aly) 

18 


19 trainset = gluoncv.data.VOCSegmentation(split-'train', 
transform=input_transform) 

20 testset = gluoncv.data.VOCSegmentation (split-'val', 
transform-input transform) 

21 print(f'Training images: {len (trainset)}, Test 
images: {len(testset) }') 

22 batch_size = 8 

23 train_data = gluon.data.DataLoader ( 


24 trainset, batch_size, shuffle=True, last_batch='rollover', 
25 num_workers=batch_size) 

26 

27 test data = gluon.data.DataLoader ( 

28 testset, batch size, shuffle-False, last batch-'discard', 
29 num workers-batch size) 

30 


31 criterion = SoftmaxCrossEntropyLossWithAux (aux-True) 

32 lr scheduler = gluoncv.utils.PolyLRScheduler (0.001, 

33 niters-len(train data), 
nepochs-50) 

34 ctx list = [mx.gpu(0),mx.gpu(1)] 

35 model = DataParallelModel (model, ctx list) 


36 criterion = DataParallelCriterion(criterion, ctx list) 
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37 
38 kv = mx.kv.create ('device') 


39 optimizer = gluon.Trainer (model.module.collect params(), 'sgd', 


40 i'Ir scheduler": lr scheduler, 
41 'wd':0.0001, 

42 'momentum': 0.9, 

43 ‘multi precision’: True}, 

44 kvstore = kv) 

45 


46 train loss, test_loss = 0.0, 0.0 
47 epochs = 10 


48 for epoch in range (epochs): 


49 i=0 

50 for data, target in tqdm(train data): 

SE lr_scheduler.update (i, epoch) 

52 with autograd. record (True) : 

53 outputs = model (data) 

54 losses = criterion (outputs, target) 

BE mx.nd.waitall () 

56 autograd.backward (losses) 

57 optimizer.step(batch size) 

58 i f= 工 

59 for loss in losses: 

60 train_loss += loss.asnumpy() [0] / len(losses) 

61 print (f'Epoch {epoch}, training loss {train_loss/len(train_ 
data) }") 

62 if epoch$5 == 0: 

63 for data, target in tqdm(test data): 

64 outputs = model (data) 

65 losses = criterion(outputs, target) 

66 mx.nd.waitall() 

67 for loss in losses: 

68 test loss += loss.asnumpy() [0] / len(losses) 

69 print(f'Epoch {epoch}, test loss {test_loss/len(test_ 
data) } 7) 
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以 上 各 部 分 代码 的 主要 作用 官方 网 站 都 有 介绍 ， 以 上 主要 是 删除 了 官方 网 站 部 分 
不 能 运行 的 代码 ， 如 gluoncv.model_zoo.resnetSO vlb 部 分 ， 可 以 在 以 下 源码 中 看 到 并 无 


resnet 字样 (目录 以 及 init py) 。 
^/miniconda3/lib/python3.6/site-packages/gluoncv/model zoo 


至 于 数据 集 VOC 的 下 载 解压 可 参考 网 站 信息 “， 注 意 解压 后 的 数据 集 需 要 放 在 
—/.MXNet/datasets/voc ARX F, AUYA gluoncv.model zoo 可 能 会 报错 。 


2. SegNet 

SegNet 与 FCN 一 样 ,使 用 的 是 Encoder-Decoder 结 构 , 但 FCN 上 采样 的 过 程 相对 简单 ， 
SegNet 在 上 采样 部 分 操作 更 加 整洁 ， 其 结构 如 图 6-6 所 示 。SegNet 中 的 池 化 操作 可 记忆 
选 出 最 大 值 的 相对 位 置 ， 在 上 采样 的 过 程 中 会 使 用 到 ， 这 是 它 与 FCN 最 大 的 差别 所 在 。 





Convolutional Encoder-Decoder 


Input Output 
路 (ita ini nf aif al 


RGB Image HE Conv + atch Normalisation + Segmentation 
Hi Pooling Bill Upsampling ums Softmax 





图 6-6 SegNet 结构 ” 
目前 各 个 框架 开源 的 SegNet 有 以 下 几 个 : 


https://github.com/chainer/chainercv/tree/master/examples/segnet 
https://github.com/meetshah1995/pytorch-semseg 
https://github.com/zijundeng/pytorch-semantic-segmentation 
https://github.com/ykamikawa/SegNet 


以 下 是 使 用 https://github.com/chainer/chainercv/tree/master/examples/segnet 进行 训练 
的 屏幕 输出 结果 : 


epoch iteration elapsed time Ir main/loss 


validation/main/miou  validation/main/mean class accuracy validation/ 


maln/pixel accaracYy. soe a a 
1 50 Ssh 0-4: 0.908356 


16 https://gluon-cv. MXNet.io/build/examples datasets/pascal voc.html 
17 https://arxiv.org/abs/1511.00561 
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3 100 70.8525 Qc 0.711404 
4 150 103.126 Deal 0.65566 
6 200 136.115 0:74! 0-599455 
8 250 168.904 (Visa 0.56288 
9 300 201.628 s 0.525101 
dE 350 234.856 D 0.488906 
13 400 267.584 0-1 0.479356 
14 450 299.935 0-1 0.455038 
16 500 392755 os 0.425338 
17 550 364.957 est 0.405308 
EOEaL [a a ] 3.69% 
证 让 = ] 29.16% 


590 iter, 19 epoch / 16000 iterations 
1.5296 iters/sec. Estimated time to finish: 2:47:54.405549. 


可 以 看 出 ， 完 成 训练 总 共 需 要 约 3 个 小 时 ， 完 成 训练 后 ， 其 损失 函数 和 mIOU 变化 


























曲线 如 图 6-7 所 示 。 
an 040: 
i 035 
= 030. 
> 025 
03 bes 
i o 2000 4000 6000 8000 10000 12000 14000 16000 2000 4000 6000 8000 10000 — 12000 14000 
d, d, 
图 6-7 SegNet 训练 后 指标 变化 曲线 
6.2.2 PSPNet 


PSPNet 的 全 称 是 Pyramid Scene Parsing Network" (人 金字塔 场景 解析 网 络 ) ， 其 主要 


考虑 了 更 多 的 上 下 文 信息 以 及 不 同 的 全 局 信息 ， 使 用 了 多 尺度 Pooling 得 到 不 同 尺度 的 
特征 图 ，Concat 起 来 得 到 多 尺度 特征 ;训练 时 加 入 了 辅助 损失 函数 ， 整 个 结构 如 图 6-8 
所 示 。 


18 https://arxiv.org/abs/1612.01105 
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(a) Input Image (b) Feature Map (c) Pyramid Pooling Module (d) Final Prediction 


图 6-8 PSPNet 结构 


更 多 详情 读者 可 参阅 原 论文 ， 目 前 在 GluonCV 中 ， 已 经 实现 了 PSPNet， 官 方 文档 
也 给 出 了 在 ADE20K 数据 集 上 训练 与 测试 的 Demo*， 读 者 可 以 自行 进行 尝试 。 


6.2.3 DeepLab 


DeepLab 由 Google #2 出， 目前 有 DeepLab v1”, DeepLab v2". DeepLab v3” 和 
DeepLab v3+” 几 个 版 本 ， 其 对 应 的 题目 分 别 为 : 


(1) Semantic image segmentation with deep convolutional nets and fully connected 
CRFs 

(2) Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, 
and Fully Connected CRFs 

(3) Rethinking Atrous Convolution for Semantic Image Segmentation 

(4) Encoder-Decoder with Atrous Separable Convolution for Semantic Image 


Segmentation 


DeepLab 中 主要 使 用 的 技术 包括 多 尺度 特征 融 、 残 差 块 、 膨 胀 卷 积 (Atrous 
Convolution， 如 图 6-9 Prax) 以 及 膨胀 空间 金字 塔 池 化 〈 如 图 6-10 Bras) 。 它 的 主干 特 
征 提取 网 络 采 用 了 ResNet 方式 ， 即 图 像 分 类 中 的 ResNet。 


19 https://gluon-cv.MXNet.io/build/examples_segmentation/train_psp.html 
20 https://arxiv.org/pdf/1412.7062v3.pdf 

21 https://arxiv.org/abs/1606.00915 

22 https://arxiv.org/abs/1706.05587 

23 https://arxiv.org/abs/1802.02611 
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图 6-9 膨胀 卷 积 扩张 操作 








rate = 18 


6 rate = 12 — 
— 


rate = 
EB] ti 
Atrous Spatial Pyramid Pooling 


图 6-10 ASPP 


膨胀 卷 积 有 一 个 扩张 因子 Gate) ， 它 将 决定 卷 积 的 感受 野 大 小 ， 将 输入 的 Feature 
Map 隔 rate—1 进行 采样 ， 然 后 再 将 采样 后 的 结果 进行 卷 积 操作 ， 或 可 理解 为 使 用 0 填充 
卷 积 之 间 的 缝隙 ， 缝 隙 大 小 为 扩张 因子 减 1， 可 称 为 见 缝 插 0， 变 相 扩大 了 卷 积 的 视野 。 
如 图 6-10 所 示 ， 扩 张 因子 为 1 时 ， 卷 积 视野 为 3X3; 扩张 因子 为 2 时 ， 就 在 各 个 卷 积 
之 间 插 入 一 个 0， 实 现 一 个 7X7 的 卷 积 视野 。 这 就 使 得 在 同等 参数 量 的 情况 下 ， 卷 积 能 
感受 更 加 宽泛 的 区 域 。 

膨胀 空间 金字 塔 池 化 全 称 为 Atrous Spatial Pyramid Pooling， 主 要 利用 不 同 扩张 因子 
的 卷 积 操作 获取 多 尺度 的 特征 信息 ， 同 时 为 了 利用 全 局 的 信息 ， 最 后 使 用 了 全 局 平均 池 
化 获取 图 像 级 别 的 特征 。 

最 后 将 综合 的 结果 送 入 CRF 进行 精细 调整 ， 完 成 最 终结 果 输 出 。CRF 会 尝试 去 寻 
找 像素 之 间 的 关系 : 相 邻 且 相 似 的 像素 属于 同一 类 别 是 大 概率 事件 ，CRF 考虑 了 像素 级 
别 分 类 的 概率 ， 通 过 迭代 完成 细 化 分 割 操作 。 
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DeepLab v1 主要 使 用 DCNN 进行 密集 的 分 类 任务 ， 产 生 比 较 粗 糙 的 分 割 结果 ， 
然后 使 用 条 件 随机 场 CCREO 对 分 割 进行 细 化 ， 结 果 如 图 6-11 所 示 。DCNN 是 基于 
VGG16 将 VGG16 的 全 连接 层 蔡 换 为 卷 积 层 ， 去 掉 了 最 后 两 个 池 化 下 采样 操作 ， 上 采样 


使 用 膨胀 卷 积 。 





Image/G.T. DCNN output CRF Iteration! CRF Iteration 2 CRF Iteration 10 








图 6-11 CNN S CRF 结合 
DeepLab v2 则 使 用 ResNet 作为 分 类 基础 网 络 ， 同 时 使 用 了 不 同 的 学 习 策 略 。 另 外 
还 使 用 了 ASPP (不同 rate 的 膨胀 卷 积 ) 进行 多 尺度 并 行 采 样 ， 获 得 了 更 好 的 分 割 效果 。 
DeepLab v3 则 提出 了 更 加 通用 的 框架 ， 没 有 使 用 CRF。 复 制 了 ResNet 最 后 一 个 
Block,， 并 分 别 进行 级 联 与 膨胀 卷 积 操 作 , 或 者 使 用 ASPP 结构 ,结构 重点 如 图 6-12 所 示 。 











pana. 
Bock) Block2 Block3. Block4 BlockS. Blocx6 Block7 
, Be, — i — s — 8 
Image See 4 128 256 256 


(a) Going deeper without atrous convolution. 


FE ss Block3 中 im Blocks E Blocks n zzi 


Image 55 4 
(b) Going deeper with atrous convolution. Atrous convolution with rate > 1 is applied after block3 when ourput-stride = 16. 


(a) Atrous Spatial 
Pyramid Pooling 





E Hune 


Image sie md eege 
(b) Image Pooling 
D 


图 6-12 DeepLab v3 


DeepLab v3+ 则 是 将 基础 网 络 蔡 换 为 Xception， 后 期 原作 者 还 使 用 了 MobileNet V2 
作为 基础 网 络 。 








第 6 章 图 像 分 割 




















以 上 图 片 均 来 自 原 论文 ，DeepLab 已 经 将 代码 开源 *， 开 源 代码 的 使 用 方法 已 
经 有 非常 详细 的 说 明 ， 包 括 对 三 个 常见 数据 集 (PASCAL VOC 2012, Cityscapes, 
ADE20K) 的 下 载 、 训 练 、 测 试 与 Demo， 读 者 可 以 结合 四 篇 论文 与 源 代码 进行 学 习 、 
训练 与 测试 。 

如 图 6-13 所 示 是 使 用 官方 模型 ， 利 用 几 张 图 片 测试 的 结果 。 可 以 看 出 数据 迁移 的 
效果 并 不 是 特别 完美 ， 一 般 需要 单独 针对 自己 的 数据 集 进行 训练 ， 具 体 可 参考 官方 网 站 
以 及 对 应 的 issues。 





















































图 6-13 DeepLab v3+ 分 割 结果 

将 LIP 下 的 子 集 ATR 进行 二 值 化 后 ， 使 用 了 DeepLab v3+ 进行 训练 ， 以 达到 扣 图 的 效 
果 ， 如 图 6-14 所 示 是 部 分 结果 ， 黑 白 图 为 蒙 版 图 ， 彩 图 为 原 图 ， 最 后 将 蒙 版 图 与 原 图 
结合 就 可 以 实现 扣 图 的 功能 。 


24 https://github.com/tensorflow/models/tree/master/research/deeplab 







































































175 





图 6-14 单独 训练 后 的 分 割 结果 


6.3 KHARI 


语义 分 割 可 以 将 不 同类 别 的 物体 区 别 开 来 ， 而 实例 分 割 则 更 进一步 ， 将 同 种 类 别 但 
属于 不 同 个 体 的 物体 都 区 分 开 来 。 实 例 分 割 主要 会 预测 物体 的 类 别 标签 并 使 用 像素 级 实 
例 Mask 来 定位 图 像 中 不 同 数量 的 实例 。 实 例 分 割 示意 如 图 6-15 所 示 。 
































到 6-15 实例 分 割 
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目前 深度 学 习 在 实例 分 割 方面 的 应 用 主要 包括 Mask RCNN、FCIS、MaskLab、 
PANet， 而 数据 集 则 常用 Pascal VOC、AED20K、CityScapes、COCO 和 MVD 等 ， 本 节 
将 对 其 中 的 几 种 算法 进行 简要 介绍 。 


6.3.1 FCIS 


FCIS 的 全 称 是 Fully Convolutional Instance-aware Semantic Segmentation? 〈 全 卷 积 实例 语 
义 分 割 ) ， 是 COCO2016 的 语义 分 割 冠军 ， 第 二 版 发 表 于 2017 年 。FCIS 继承 了 语义 分 
割 网 络 FCN 和 InstanceFCN 的 所 有 优点 ， 会 同时 进行 物体 的 检测 与 分 割 。 

FCIS 在 阐述 了 FCN 在 语义 分 割 上 的 优点 之 后 ， 也 指出 了 其 在 实例 分 割 上 的 缺点 ， 
卷 积 的 平移 不 变性 使 得 同一 像素 在 图 像 不 同 区 域 会 获得 相同 的 响应 〈 分 类 分 数 ) ， 即 对 
位 置 不 敏感 ， 但 实例 分 割 则 需要 在 不 同 区 域 操 作 〈 位 置信 息 ) ， 使 得 同一 像素 在 不 同 区 
域 可 能 会 代表 不 同 的 语义 信息 。 FCN 输出 的 是 类 别 的 概率 ， 而 没有 单个 实例 对 应 的 输出 。 
同时 也 指出 了 InstanceFCN 的 缺点 : 空间 金字 塔 扫 描 非常 耗 时 ， 只 有 单个 输出 ， 无 语义 
信息 ， 需 要 单独 的 网 络 检测 类 别 信息 ， 没 有 做 到 端 到 端 学 习 。 三 者 的 差异 对 比 可 参考 
6-16。 


sore map of 
th category 
































ify | 
instance mask proposal | 


(a) Conventional FCN for semantic segmentation (b) InstanceFCN for instance masi J 
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(c) Our fully convolutional instance-aware semantic segmentation 











6-16 FCIS 5 FCN fil InstanceFCN 


FCIS 共享 了 卷 积 特征 与 分 数 图 来 进行 物体 检测 与 分 割 ， 达 到 了 SOTA (State of the 
Art 的 准确 率 与 效率 。FCIS 使 用 了 位 置 敏感 的 分 数 图 来 引入 平移 变化 的 性 质 ， 提 出 了 
同时 进行 检测 与 分 割 的 方式 。 


25 https://arxiv.org/abs/1611.07709 
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FCIS 的 结构 如 图 6-17 所 示 , 其 中 使 用 了 RPN 网 络 蔡 换 滑 窗 操作 , RPN 会 产生 ROI( 感 
兴趣 区 域 ) ， 计 算 对 应 的 分 数 图 ， 产 生 分 类 和 分 割 结果 。 其 基本 网 络 使 用 的 是 ResNet， 去 
除了 最 后 一 个 全 连接 层 ， 基 于 conv 的 特征 图 得 到 ACN 个 分 数 图 ， 默 认为 7，C 为 类 
别 个 数 ， 进 行 了 16 倍 下 采样 ， 训 练 时 使 用 的 是 8 卡 GPU， 每 张 卡 输入 一 张 图 片 ， 从 而 达到 
了 BatchSize 为 8 的 效果 。 具 体 的 论述 请 参见 原 论文 ， 作 者 也 对 FCIS 进行 了 开源 “。 


position-sensitive 
inside/outside score maps 






assembling 





6-17 FCIS 结构 


6.3.2 Mask R-CNN 


Mask R-CNN” 是 Kaiming He 在 Facebook 的 成 果 ， 于 2018 FRK. Mask R-CNN 将 
Faster R-CNN 5 FCN 结合 起 来 ， 在 Rol (Region of Interest， 感 兴趣 区 域 》 上 进行 分 割 ， 
其 结构 如 图 6-18 所 示 。 





FCN on Rol 
图 6-18 Mask R-CNN 结构 


26 https://github.com/msracver/FCIS 
27 https://arxiv.org/pdf/1703.06870.pdf 


第 6 章 m 


网 络 的 输入 为 一 张 图 像 ， 输 出 则 有 三 项 ， 类 别 、Bbox 和 Mask， 其 中 获得 Mask 的 
操作 是 使 用 并 行 的 FCN 网 络 层 。 每 个 RolAlign 会 对 应 天 Xz 维度 的 Mask 输出 ,天 为 
类 别 个 数 〈 可 以 有 效 避 免 类 间 竞 争 ， 这 与 FCIS 不 同 )，m 对 应 池 化 分 辨 率 。 故 FCIS 分 
PINAR RASA BBNMR, m Mask R-CNN 可 有 效 避 免 这 个 问题 。 

针对 尺度 同 变性 、 像 素 到 像素 的 平移 同 变性 等 情况 ，Mask R-CNN 将 Faster R-CNN 
中 的 RoIPool 替换 为 RoIAlign， 其 操作 如 图 6-19 所 示 ， 主 要 使 用 了 双 线 性 插值 。 而 原始 
RoIPool 操作 会 破坏 像素 到 像素 的 平移 同 变性 。 


convfeat. map 


(Fixed dimensional 
representation) 


| RolAlign | 


Grid points of 
un output 


bilinear interpolation 





(Variable size Rol) 


d 
| 
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6-19 RolAlign 


Mask R-CNN 的 优点 是 不 需要 借助 其 他 Trick， 且 容易 扩展 到 其 他 任务 上 ， 如 姿态 预 
测 。 在 基础 网 络 的 适应 性 上 ，Mask R-CNN 也 有 很 强 的 泛 化 能 力 。 

Mask R-CNN 原作 者 也 进行 了 代码 开源 ”使 用 的 是 Python2 和 Caffe2. 

基于 其 他 框架 的 开源 版 本 也 有 很 多 ， 有 的 只 能 预测 ， 有 的 则 较为 完整 ， 以 下 是 几 个 
相对 不 错 的 项 目 : 


* CharlesShang 开源 了 一 个 基于 TensorFlow 的 快速 版 本 ”。 

©  Wkentaro 实现 了 两 个 版 本 : Chainer 版 本 ”和 PyTorch MA 
©  Matterport 的 TensorFlow 版 本 。 

e  Multimodallearning 的 PyTorch 版 本 ?. 


28 https://github.com/facebookresearch/Detectron 

29 https://github.com/CharlesShang/FastMaskRCNN 

30 https://github.com/wkentaro/chainer-mask-rcnn 

31 https://github.com/wkentaro/mask-renn.pytorch 

32 https://github.com/matterport/Mask RCNN 

33 https://github.com/multimodallearning/pytorch-mask-renn. 
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e MXNet fk", 
e Keras MA”. 


6.3.3 MaskLab 


MaskLab™ 是 DeepLab 系列 作者 Liang-Chieh Chen F 2017 年 底 发 表 的 作品 ， 文 
件 名 为 Instance Segmentation by Refining Object Detection with Semantic and Direction 
Features， 其 实例 分 割 效果 可 与 当前 SOTA 的 网 络 媲美 。MaskLab 与 FCIS 和 Mask R-CNN 
非常 相似 。 

MaskLab 也 是 基于 Faster R-CNN 检测 网 络 , 在 检测 出 的 Rol 中 进行 前 景 与 背景 分 割 ， 
此 处 会 用 到 语义 分 割 和 实例 中 心 朝向 预测 技术 。 方 向 预测 主要 是 预测 像素 点 对 其 实例 中 
心 点 的 朝向 ， 用 来 区 分 同一 类 别 的 不 同 实例 。 

文章 分 析 了 目前 实现 实例 分 割 的 主要 方法 : 一 是 首先 进行 实例 BBox 粗 预测 ， 再 精 
修 达 到 分 割 目 的 ， 二 是 首先 进行 粗略 的 分 割 ， 然 后 再 进行 像素 级 的 聚 类 精 修 。 文 章 也 指 
出 了 FCIS 的 缺点 ， 力 图 将 Detection-based 和 Segmentation-based 两 种 方法 联合 起 来 ， 解 
决 实例 分 割 问题 。 

MaskLab 结构 如 图 6-20 所 示 ,， 网 络 会 有 三 项 输出 , 包括 BBox 与 分 类 、 语 义 分 割 (不 
同类 别 ) 和 朝向 〈 不 同 实例 ) 。 语 义 分 割 是 在 BBox 基础 上 做 的 ， 且 去 除了 背景 分 割 操 作 。 
网 络 中 使 用 了 集成 方法 来 收集 朝向 信息 ， 还 使 用 了 膨胀 卷 积 、hypercolumn 特征 、multi- 


grid 等 技术 。 
Box 
ee RR i 


Crop logits from 
the channel of 
predicted class 


Direction Pooling 
within each box 


图 6-20 MaskLab 结构 





34 https://github.com/TuSimple/mx-maskrenn 


35 https://github.com/fizyr/keras-maskrcnn 
36 https://arxiv.org/abs/1712.04837 
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MaskLab 使 用 ResNet-101 作为 特征 提取 基础 网 络 ， 在 语义 分 割 和 朝向 预测 中 使 用 
了 1X1 卷 积 操作 ， 最 后 再 使 用 1X 1 卷 积 对 语义 输出 和 朝向 输出 的 融合 结果 进行 操作 ， 
得 到 最 后 的 结果 。 更 加 详细 的 论述 可 参阅 原 论文 。 


6.3.4 PANet 


PANet 的 全 称 是 Path Aggregation Network for Instance Segmentation”( 用 于 实例 分 割 的 路 
径 聚 合 网 络 ) ,收录 在 CVPR2018, 获得 了 COCO2017 中 实例 分 制 第 一 名 , 目标 检测 第 二 名 ， 
在 Cityscapes 和 MVD 数据 集 上 也 表现 优异 。 

PANet 的 结构 如 图 6-21 所 示 ， 它 在 Mask R-CNN 的 基础 上 进一步 融合 了 高 层 和 底层 
特征 ， 采 用 了 自 底 向 上 的 路 径 增 广 方 法 ， 提 升 了 基于 候选 区 域 的 实例 分 割 的 信息 流传 播 。 
底层 特征 在 识别 边缘 线条 和 纹理 等 基础 特征 方面 很 有 优势 ， 此 优势 有 助 于 识别 大 型 目标 ， 
但 底层 到 高 层 路 径 太 长 ， 信 息 流 动 不 够 充分 。 





图 6-21 PANet 结构 


同时 使 用 了 自 适 应 特征 池 化 来 融合 〈 逐 像素 相 加 或 取 最 大 ) 各 个 层次 特征 ， 这 样 便 
能 更 加 充分 地 利用 各 个 层次 的 信息 。 在 最 后 添加 了 一 个 补充 的 小 全 接连 层 来 提升 Mask 
预测 效果 ， 这 样 就 融合 了 FCN 与 全 连接 层 两 者 的 效果 。 
6.4 本 章 总 结 


本 章 介绍 了 不 同 层次 图 像 分 割 的 部 分 技术 ， 包 括 基本 的 前 背景 分 割 、 选 用 于 同 种 类 








37 https://arxiv.org/pdf/1803.01534.pdf 
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别 的 语义 分 割 与 将 不 同 实例 分 开 的 实例 分 割 。 但 这 些 都 是 像素 级 别 的 分 类 ， 更 加 细 粒 度 
的 分 割 是 进行 alpha 通道 的 扣 图 ， 即 Image Matting。 在 这 些 技术 当中 ， 有 很 多 都 开源 了 ， 
当然 也 有 部 分 是 没有 开源 的 ， 比 如 MaskLab 与 PANet。 

相对 图 像 分 割 的 数据 集 来 说 ， 常 规 的 公开 数据 集 主 要 是 一 般 的 类 别 和 交通 等 ， 特 定 
的 数据 集 比较 难 获取 ， 所 以 读者 如 果 想 训练 特定 的 分 割 模型 ， 需 要 下 很 大 的 功夫 。 

以 上 只 是 介绍 了 部 分 技术 ， 而 且 也 没有 进行 详细 介绍 ， 如 果 读 者 对 图 像 分 割 这 个 方 
向 感 兴趣 ， 这 个 领域 从 基础 知识 到 高 级 应 用 〈 如 Deep Image Matting 等 ) 都 有 很 多 值得 
探索 的 东西 ， 实 力 更 强 的 读者 也 可 以 自行 尝试 实现 最 新 论文 的 思想 ， 当 然 如 果 自 己 有 新 
的 想法 也 可 以 多 尝试 。 


随 着 互联 网 的 飞速 发 展 ， 涌 现 出 了 大 量 的 新 时 代 公 司 ， 如 Facebook. Youtube, 
Flickr， 以 及 大 型 电 商 平台 如 淘宝 、Amazon 等 ， 全 球 图 片 数量 也 达到 海量 级 别 。 如 何在 
这 些 视觉 信息 丰富 的 海量 图 片 中 快速 准确 地 搜索 到 用 户 所 需要 的 图 片 是 计算 机 视觉 领域 
的 研究 热点 ， 也 极 具 商业 应 用 价值 。 

图 像 搜索 其 应 用 领域 十 分 广泛 ， 包 括 电 商 、 医 学 、 公 共 安 全 、 搜 索引 擎 甚至 军事 等 。 

图 像 搜索 常规 分 为 两 类 ， 一 类 是 基于 文本 的 搜索 ， 即 TBIR (Text Based Image 
Retrieval) ; 另 一 类 是 基于 内 容 的 搜索 ， 即 CBIR (Content Based Image Retrieval) 。 

TBIR 出 现 较 早 ， 主 要 利用 关键 字 对 图 像 进 行 描 述 ， 然 后 进行 关键 字 比 对 ， 比 对 成 
功 后 将 结果 返回 给 用 户 ， 其 缺点 是 给 图 像 标 关键 字 需 要 人 力 介 入 ， 面 对 海量 数据 则 费时 
费力 ， 还 面临 增 量 的 问题 ， 且 人 为 判断 干扰 因素 难以 估计 。 

CBIR 则 是 利用 计算 机 对 图 像 进行 分 析 ， 然 后 使 用 特征 向 量 〈 可 以 简单 理解 为 很 多 
数字 ) 来 代表 图 像 ， 然 后 对 所 有 的 图 像 都 做 特征 提取 并 保存 在 特征 库 中 ， 最 后 当 要 搜索 
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某 张 图 片 时 ， 使 用 同样 的 特征 提取 方法 提取 ， 再 与 特征 库 中 的 特征 作对 比 ， 按 某 种 相似 
指标 进行 排序 并 输出 相似 最 好 的 几 张 图 片 ， 这 样 达 到 图 像 搜索 的 效果 。CBIR 将 图 像 的 
表达 以 及 相似 的 计算 交 给 计算 机 处 理 , 克服 了 TBIR 的 缺点 , 可 以 充分 利用 计算 机 的 优势 ， 
极 大 地 提高 了 搜索 效率 ， 适 用 于 新 时 代 的 海量 图 像 搜索 场景 。 

CBIR 应 用 前 景 广阔 。 目 前 淘宝 网 推出 的 “ 拍 立 淘 ”!'， 可 以 让 用 户 现场 拍照 并 上 传 
至 服务 器 ， 然 后 进行 图 像 搜索 ， 返 回 给 用 户 相同 或 相似 度 非常 高 的 商品 链接 ， 让 用 户 达 
到 货 比 三 家 的 体验 感 。 现 在 女性 用 户 使 用 “ 拍 立 淘 ”购买 衣服 占 了 非常 大 的 比例 。 

在 产品 上 架 和 库存 管理 中 ， 可 以 检索 是 否 有 重复 产品 ， 这 块 的 应 用 包括 但 不 限于 电 
商 产 品 管理 、 图 书 管理 、 原 材料 库存 管理 等 。 

在 商标 或 版 权 方面 ， 可 以 进行 侵权 搜索 ， 既 可 以 搜索 是 否 被 侵权 也 可 以 搜索 是 否 侵 
犯 别 人 的 版 权 。 

在 公共 安全 领域 ， 人 脸 识别 技术 应 用 也 十 分 广泛 ， 其 本 质 也 是 图 像 搜 索 ， 现 在 常常 
看 到 公安 部 门 使 用 人 脸 识 别 技术 ， 比 如 不 知道 某 个 犯罪 嫌疑 人 的 身份 ， 那 么 如 果 有 犯罪 
现场 的 视频 或 照片 ， 就 可 以 在 全 国 的 身份 证 系统 中 缩小 怀疑 对 象 ， 然 后 再 利用 所 得 到 的 
信息 进行 下 一 步 侦察 或 利用 道路 摄像 头 确定 嫌疑 人 的 活动 区 域 ， 减 轻 公安 部 门 的 人 力 
成 本 并 加 速 案件 侦破 。 

在 军事 上 的 简单 应 用 包括 以 图 像 搜 索 战机 型 号 、 机 载 武器 、 舰 艇 及 其 武器 、《〈 核 ) 
潜艇 、〔 核 ) 导弹 等 ， 通 过 搜索 到 的 相同 或 类 似 图 像 ， 可 以 缩小 关注 点 ， 更 加 快速 准确 
地 判断 对 方 的 速度 、 特 点 、 攻 击 力量 等 ， 为 统战 指挥 提供 技术 支撑 。 

CBIR 工程 中 主要 包括 图 像 描 述 和 海量 相似 计算 与 排序 ， 图 像 描述 即 特征 表达 ， 是 
本 章 重点 ， 而 海量 计算 与 排序 则 是 另 一 个 研究 非常 早 、 应 用 非常 广 的 领域 ， 本 书 不 作 详 
细 介 绍 。 

那么 计算 机 怎么 描述 一 张 图 像 呢 ? 传统 的 方法 有 SIFT, SURF, ORB, BoW, 
VLAD 和 FV, 但 其 缺点 是 这 些 方法 都 是 人 为 设 定 规则 ， 规 则 的 好 坏 决定 了 搜索 的 效果 。 
而 深度 学 习 恰 好 在 这 方面 有 着 天 然 的 优势 ， 只 要 给 出 正确 的 样本 ， 计 算 机 就 可 以 尽 可 能 
好 地 去 学 习 某 种 规则 来 提取 图 像 特 征 。 

本 章 将 介绍 Siamese Network 及 其 变种 Triplet Network 及 Margin Based Network, Jf 
在 最 后 给 出 示例 。 


1 https://yq.aliyun.com/articles/194353 


7.1 Siamese Network 
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X 于 Siamese Network 的 文章 主要 有 Leaming to Compare Image Patches via 


Convolutional Neural Networks” 和 


Network’. 


Siamese Network 的 结构 如 
图 像 1 和 图 像 2 相似 或 图 像 1 和 























4 CNN, 





wit 
对 应 y3; 


























z13-G(yl, y3), 可 以 看 到 相似 度 计 


最 后 对 CNN 的 输出 进行 相似 度 的 计算 ， 这 里 
算 应 该 是 对 称 的 ， 即 交换 输入 对 结果 不 应 该 造成 影响 ， 

相似 度 高 则 与 相似 标签 CBN 1) 对 应 起 来 ， 相 似 度 低 则 与 不 相似 标签 〈 即 -1) 对 应 起 来 ， 
那么 训练 的 过 程 就 是 训练 函数 使 得 z12 不 断 地 与 1 联系 起 来 ，z13 不 断 地 与 -1 联系 





Signature Verification Using a Siamese Time Delay Neural 


图 7-1 所 示 ， 其 思想 也 十 分 简单 和 朴素 ， 样 本 表示 如 下 : 
图 像 3 不 相似 , 其 中 相似 和 不 相似 可 以 分 别 
jF 代表 ， 图 片 xl 通过 CNN 得 到 输出 好 ， 同 理 可 得 妆 6E INL y2, x3 











1 和 -1 表示 。 

















使 用 G 代表 ， 如 z12=GO'1,)2)、 


起 来 。 这 里 也 可 以 形象 地 理解 为 一 个 2 分 类 过 程 ， 将 两 张 相 似 或 相同 的 图 片 的 特征 一 起 
作为 输入 ， 然 后 分 为 正 类 ， 将 不 相似 的 则 分 为 负 类 。 


2 https://arxiv.org/abs/1504.03641 
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图 7-1 Siamese Network 的 











3 http://papers.nips.cc/paper/769-signature-verification-using-a-siamese-time-delay-neural-network pdf 
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当然 不 同 的 论文 其 具体 实现 可 能 不 同 ， 比 如 选择 的 F 和 G 不 同 。 

目前 常用 的 F 常常 基于 不 同 基础 网 络 ， 如 VGG、Inception、ResNet 等 ， 然 后 加 几 
HE. 最 后 输出 为 某 个 维度 (比如 1024 维 ) 的 向 量 ; 对 于 相似 度量 G， 常 用 的 有 欧式 距离 、 
Cosine 距离 及 更 多 更 复杂 的 距离 设计 。 

至 于 损失 函数 ， 可 以 使 用 简单 的 2 分 类 的 损失 函数 ， 也 可 以 使 用 不 同 论文 中 设计 的 
损失 函数 〈 如 contrastive loss) ， 只 是 效果 可 能 不 同 而 已 。 最 后 利用 损失 函数 的 值 使 用 
优化 算法 更 新 F 这 个 CNN 网 络 中 的 参数 ， 进 行 训练 ， 目 标 是 降低 损失 函数 的 值 。 

目前 不 同 框架 对 于 Siamese Network 的 开源 实现 有 以 下 几 类 : 


https://github.com/mitmul/chainer-siamese 

https://github.com/delijati/pytorch-siamese 
https://github.com/harveyslash/Facial-Similarity-with-Siamese-Networks-in-Pytorch 
https://github.com/ascourge21/Siamese 
https://www.kaggle.com/arpandhatt/siamese-neural-networks 
https://github.com/edmBernard/MXNet example shared weight/blob/master/demo _ 


with gluon siamese.py 


7.2 Triplet Network 





该 网 络 主要 源 于 Google 出 品 的 人 脸 识别 论文 FaceNet: A Unified Embedding for Face 
Recognition and Clustering'*。 传 统 的 Siamese Network 使 用 的 是 二 元 组 数据 作为 输入 ， 然 
后 进行 相似 或 不 相似 的 2 分 类 判定 ， 而 Triplet Network 则 提出 使 用 三 元 组 作为 输入 ， 损 
失 函 数 则 使 用 Triplet loss， 其 结构 如 图 7-2 所 示 。 

输入 为 三 元 组 ， 分 别 为 anchor. positive 和 negative, anchor 表示 参考 图 像 ，positve 
表示 与 anchor 相同 或 相似 的 图 像 ， 而 negative 表示 与 anchor 不 相同 或 不 相似 的 图 像 。 

这 里 的 相同 或 相似 在 工程 中 可 以 使 用 相同 的 类 别 标签 来 表示 ， 从 此 可 以 看 出 图 像 分 
类 这 种 基础 概念 非常 重要 。 

然后 将 三 元 组 图 像 送 入 CNN. 网 络 F 中 进行 特征 提取 ， 分 别 得 到 对 应 的 三 个 相对 低 
维 的 向 量 Ea, Ep 和 En， 再 将 三 个 特征 向 量 送 入 Triplet loss 函数 中 进行 计算 。 


4 https://arxiv.org/pdf/1503.03832.pdf 


Triplet loss 定义 如 下 : 


L=max{G(Ea, Ep) + margin — G(Ea, En), 0} 


G 表 


cosine。 


它 的 


示 相 似 度 计 算 函 数 ， 常 用 的 有 几 、12 和 


目标 是 将 Ea 和 即 的 差异 指标 尽量 降 


低 ， 同 时 增高 Ea 和 En 的 差异 指标 。 在 此 基础 上 








用 加 上 一 
相似 的 程 
就 停止 优 
G(Ea, En) 
模型 就 会 
介绍 








AY REL margin， 表 示 相 似 的 程度 要 比 不 
度 小 margin 个 数量 ， 此 时 工 为 0， 网 络 
化 与 参数 更 新 ， 即 G(Ea, Ep) + margin < 
， 如 果 G(Ea, Ep) + margin > G(Ea, En), 
一 直 进 行 训练 。 

完 Triplet Network 的 训练 流程 后 ， 来 看 











看 其 三 元 组 样本 的 准备 。 


首先 anchor 和 positive 是 很 容易 确定 的 ， 难 点 在 于 如 何 选择 negative 图 像 。 根 据 
G(Ea, Ep) 和 G(Ea, Ep) + margin 与 G(Ea, En) 的 关系 ,可 以 将 negative 分 为 以 下 三 种 情况 。 
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图 7-2 Triplet Network 











(1) G(Ea, Ep) < G(Ea, Ep) + margin < G(Ea, En)， 这 种 情况 下 的 negative 最 容易 满 
足 前 面 的 不 等 式 ， 意 味 着 negative 与 anchor 差异 特别 大 (比如 接近 无 穷 ) W anchor 为 
鞋子 、positive 也 是 同 款 鞋子 、 但 negative 为 衣服 ， 可 称 为 easy negatives， 但 其 对 训练 几 


mmm 











么 作用 ， 因 为 loss 为 0， 所 以 少量 此 类 样本 即 可 。 





(2) G(Ea, En) < G(Ea, Ep) < G(Ea, Ep) + margin， 这 种 情况 下 


寻找 ， 前 面 的 不 等 式 意 味 着 同类 图 像 间 的 相似 度 差异 比 不 同类 图 像 间 
真实 情况 ， 那 么 人 类 的 视觉 感官 在 很 大 程度 上 也 难以 分 辨 其 
会 大 概率 地 认为 这 个 negative 其 实 和 anchor 是 同类 ， 这 可 称 为 hard negatives, 


如 果 这 是 
就 是 人 们 








对 于 神经 





网 络 来 说 相对 比较 难以 训练 。 





的 negative 一 般 很 难 
的 相似 度 差异 还 大 ， 














差异 ， 或 直观 地 说 


(3) G(Ea, Ep) < G(Ea, En) < G(Ea, Ep) + margin， 这 种 情况 在 上 面 两 种 情况 之 间 


损失 函数 的 值 也 不 至 于 为 0， 故 相对 来 说 是 比较 好 的 





区 间 ， 称 为 semi-hard negatives. 


对 Triplet 样本 的 选取 有 在 线 选择 和 离线 选择 两 种 方式 ， 主 要 是 选取 negative, 
positive 比较 容易 获取 。 
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离线 选取 是 将 所 有 训练 数据 送 入 CNN 网 络 ， 得 到 所 有 图 片 对 应 的 特征 向 量 ， 然 后 
根据 相似 情况 选取 negative， 支 持 hard negative 和 semi-hard negative 样本 选取 ; positive 
使 用 同类 别 下 的 其 他 图 片 即 可 。 此 法 相对 来 说 不 够 高 效 ， 因 为 训练 初期 需要 做 一 次 样本 
选取 ， 简 称 采 样 ， 然 后 每 过 几 轮 训练 后 ， 需 要 重新 采样 ， 因 为 训练 过 程 中 下 的 参数 可 能 
发 生 了 很 大 的 变化 ， 从 而 导致 提取 的 特征 也 发 生 了 很 大 的 变化 。 

在 线 采 样 其 实质 和 离线 采样 一 样 ， 不 过 针对 的 样本 量 从 全 体 样本 变 为 每 个 batch 的 
样本 ， 即 在 每 个 batch 中 选取 anchor, positive 和 negative， 其 中 如 果 三 者 都 是 同一 图 片 ， 
则 称 为 无 效 样本 ， 有 效 样本 是 指 在 batch 内 anchor 5 positive 属于 同类 ， 但 为 不 同 图 片 ， 
anchor 与 negative 属于 不 同类 的 图 片 。 

在 In Defense of the Triplet Loss for Person Re-Identification 文章 中， 作者 对 batch 中 
进行 有 效 采 样 进 行 了 两 种 尝试 。 首 先 假设 每 个 batch 中 有 尸 个 类 别 ， 每 个 类 别 包含 天 张 
图 片 。 第 一 种 方式 是 在 batch 中 针对 每 个 anchor 选择 相似 度 最 差 的 positive 和 相似 度 最 
好 的 negative， 这 样 便 有 了 XK 组 样本 ; 第 二 种 方式 是 针对 每 个 anchor， 选 择 同类 别 下 其 
他 的 为 positive， 共 有 K-1 种 可 能 性 ， 然 后 在 剩 下 的 P-1 类 别 选 取 negative, 共有 (P-1)XK 
种 可 能 性 , 故 总 的 样本 数 可 达 PXKX(K-1)X(P-1)XK 组 。 其 实验 结果 中 第 一 种 表现 最 好 。 





7.3 Margin Based Network 


在 2018 年 Chao-Yuan Wu 发 表 了 Sampling Matters in Deep Embedding Learning’, iX 
里 将 这 篇 文章 所 用 的 方法 称 作为 Margin Based Network. 

该 文章 主要 提出 了 两 个 点 ， 一 是 关于 采样 方式 的 重要 性 ， 二 是 改变 了 损失 函数 的 计 
算 方 式 。 

关于 采样 ， 文 章 指出 特征 空间 内 各 个 样本 点 〈 进 行 了 归 一 化 ) 分 布 在 一 个 超 球 空间 ， 
空间 维度 为 4， 假 如 所 有 点 均匀 分 布 在 超 球 表面 上 ， 那 么 各 点 之 间 的 距离 服从 以 下 分 布 : 
qd? = 
EAR 


可 以 参考 相关 网 站 "查看 详细 推导 , 可 以 近似 地 将 其 看 作 正 态 分 布 。 同 时 作者 也 分 析 


q(d) < d"?[1— 


5 https://arxiv.org/pdf/1703.07737.pdf 
6 https://arxiv.org/abs/1706.07567 
7 http://faculty.madisoncollege.edu/alehnen/sphere/hypers.htm 
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了 hard negative 难以 训练 的 原因 ， 其 表现 为 高 方差 和 低 信 品 比 ， 高 方差 意味 着 梯度 随机 
性 很 强 ， 低 方差 意味 着 梯度 确定 性 很 强 ， 低 方差 比较 好 。 所 以 文章 提出 距离 加 权 采 样 ， 
以 此 来 修正 偏差 并 同时 控制 方差 。 主 要 是 根据 距离 进行 均匀 加 权 采 样 ， 对 于 某 个 anchor 
图 片 a， 以 下 面 的 公式 来 采样 negative: 

Pr(n* =n| a) = min(4,g (Do) 

其 中 ,4 的 作用 是 剔除 噪声 样本 ， 这 样 对 negative 的 采样 会 比 传统 的 方法 覆盖 更 多 
的 样本 。 

文章 对 比 了 不 同 采样 方式 的 样本 分 步 : hard negative 常常 在 高 方差 区 域 采样 ， 致 使 
网 络 训练 效果 不 好 ， 模 型 容易 场 塌 ， 随 机 采样 则 容易 获取 easy negative 样本 ， 致 使 loss 
为 0; 而 semi-hard 方式 相对 较 好 ， 在 二 者 中 间 ; 而 使 用 距离 加 权 采 样 则 可 以 持续 提供 有 
效 样本 进行 训练 ， 同 时 可 控制 方差 。 

对 于 各 类 损失 函数 ， 文 章 也 进行 了 分 析 ，Triplet loss 优 于 Contrastive loss 有 两 个 主 
要 点 : Triplet loss 没有 事先 假定 相似 与 不 相似 的 阔 值 ， 另 外 它 只 需要 positive 与 anchor 
的 相似 度 比 negative 与 anchor 的 相似 度 高 即 可 ， 而 Contrastive loss 则 会 尽量 让 所 有 的 
positive 越 相似 越 好 。 对 于 Triplet loss， 使 用 hard negative AY, negative 相关 的 梯度 容易 
接近 0, 而 positive 相 关 的 梯度 又 很 大 , 这 样 所 有 的 点 容易 集中 到 一 个 点 , USUAL 
对 此 一 个 简单 的 方式 就 可 让 损失 函数 更 加 稳定 ， 即 相似 度 G 的 计算 使 用 12 REBEL, Xt 
常规 的 欧式 距离 进行 一 次 开 方 。 基 于 这 些 观察 ， 文 章 提出 了 Margin based loss 理论 ， 其 
结合 了 Triplet loss 和 Contrastive loss 的 优点 ， 具 体 解释 可 以 参见 原 论文 。 


PENG, j) = (A+ y, KO), - B). 


作者 在 Stanford Online Products, CAR196 和 CUB200-2011 上 都 取得 了 非常 好 的 搜 
索 效 果 ， 读 者 可 以 使 用 论文 作者 提供 的 开源 代码 进行 学 习 和 尝试 。 


8 https://github.com/chaoyuaw/incubator-MXNet/tree/master/example/gluon/embedding learning 
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7.4 Keras 版 Triplet Network 示例 





7.4.1 准备 数据 


这 里 使 用 Keras 版 Triplet Network 进行 示范 ，Keras 使 用 TensorFlow 1.8.0 中 自 带 的 
版 本 ， 无 须 单独 安装 。 
训练 和 测试 文件 与 图 像 分 类 目录 结构 一 样 ， 即 


/image retrieval data/ 
L— train 

|— class label 1 
|— class label 2 
L— class label 3 
|— class label 4 


|l— class label 5 
l— class label 6 
L—— class label 7 
val 

L— class label 1 
L— class label 2 
L— class_ label 3 
L— class label 4 


= 


L— class label 5 
L— class label 6 
L—— class label 7 


由 于 此 处 不 宜 将 所 有 代码 都 写 在 一 个 文件 中 ， 所 以 需要 简单 组 织 代码 结构 ， 训 练 文 
件 目 录 结 构 如 下 : 


image retrieval code 


L— train.py 
L— evaluate. py 
-一 一 triplets sampler.py 
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7.42 训练 文件 


下 面 来 分 析 具 体 的 代码 ，trainpy 内 容 如 下 : 


E 
2 
3 
4 
5 
6 
7 
8 
9 
0 


T 
TE 
12 
ies) 
14 
15 
16 


import os 

import glob 

import numpy as np 
os.environ["CUDA DEVICE ORDER"] = "PCI BUS ID" 
os.environ["CUDA VISIBLE DEVICES"] = "0" 


import tensorflow as tf 


from tensorflow.python.keras import backend as K 
config = tf.ConfigProto() 

config.gpu options.allow growth-True 

session = tf.Session (config-config) 


K.set session(session) 


from tensorflow.python.keras.applications.resnet50 import 


ResNet50, preprocess input 


27 


18 from tensorflow.python.keras.layers import AveragePooling2D, 


from tensorflow.python.keras.models import Model 


MaxPooling2D, GlobalMaxPooling2D, Lambda, Input, Flatten, Dense 


图 像 搜索 


19 from tensorflow.python.keras.layers import BatchNormalization, 
Dropout, PReLU 


20 
2 
22 
23 
24 


from tensorflow.python.keras import optimizers 


from tensorflow.python.keras.preprocessing import image 


from triplets_sampler import DataGenerator 


首先 导入 必要 的 包 ， 此 处 Keras 中 所 有 的 包 都 直接 从 TensorFlow 中 导入 ， 如 果 读 者 


使 用 单独 安装 的 Kerass， 那 么 需要 修改 对 应 的 行 。 


在 设置 GPU 时 ， 要 使 用 第 一 块 GPU， 


且 按 需 分 配 显存 。 然 后 导入 ResNet50 所 需要 的 包 ， 这 里 使 用 ResNet50 作为 主干 网 络 。 
最 后 导入 triplets 采样 的 模块 ， 这 个 模块 的 具体 内 容 后 面 会 有 分 析 ， 主 要 作用 就 是 生成 三 
元 组 样本 。 
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25 def 12Norm(x): 


26 return K.12 normalize(x, axis--1) 

27 

28 def euclidean distance (vects): 

29 X, y = vects 

30 return K.sqrt(K.maximum(K.sum(K.square(x - y), axis=1, 


keepdims-True), K.epsilon())) 

am 

32 def triplet loss( , y pred): 

33 margin = K.constant (1) 

34 return K.mean(K.maximum(K.constant(0), K.square(y 
pred[:,0,0]) - K.square(y pred[:,1,0]) + margin)) 

35 

36 def accuracy( , y pred): 


ST return K.mean(y pred[:,0,0] < y pred[:,1,0]) 
38 

39 def mean pos dist( , y pred): 

40 return K.mean(y pred[:,0,0]) 

41 

42 def mean neg dist( , y pred): 

43 return K.mean(y pred[:,1,0]) 

44 

45 def fake loss, ): 

46 return K.constant (0) 


以 上 代码 第 25-46 行 主要 定义 了 Triplet Network 中 会 使 用 到 的 函数 。12Norm € 
要 是 对 特征 向 量 进行 12 归 一 化 。euclidean_distance 主要 是 计算 两 个 向 量 的 开 方 欧式 距 
离 。accuracy 主要 是 计算 positive 与 anchor 的 相似 度 差异 (此 处 为 开 方 欧式 距离 ) 小 
于 negative 与 anchor 的 相似 度 差异 的 比例 ， 越 高 越 好 。mean pos dist 表示 positive 与 
anchor 的 平均 距离 ，mean_neg_dist 表示 negative 与 anchor 的 平均 距离 ， 两 者 的 大 小 可 以 
为 后 期 调 参 提供 参考 。fake_loss 为 一 个 常量 ， 不 会 真 的 使 用 ， 只 是 构建 网 络 需 要 而 已 。 


47 

48 """ Building the resnet feature map model """ 

49 resnet input = Input (shape- (224,224,3)) 

50 resnet model = ResNet50 (weights-'imagenet', include top-False, 


input tensor-resnet input) 
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51 

52 net = resnet model.output 

53 net = Flatten(name-'flatten') (net) 

54 net = Dense(512, activation-'relu', name='fcl') (net) 

55 net = Dense(512, name-'embded') (net) 

56 net = Lambda (12Norm, output shape-[512]) (net) 

57 

58 base model = Model(resnet model.input, net, name-'resnet 
model') 


59 #base_model.summary () 


以 上 代码 第 48-59 行进 行 了 Triplet Network 主干 网 络 的 定义 ， 首 先 使 用 在 ImageNet 
上 预 训练 的 ResNet50 模型 ， 去 掉 最 后 的 全 连接 层 ， 然 后 第 53 行 作 拉平 操作 ， 第 54-55 
行 加 了 两 个 全 连接 层 ， 第 56 行进 行 了 12 归 一 化 ， 以 后 真正 应 用 便 需 以 这 一 层 的 输出 结 
果 作 为 代表 图 像 的 特征 向 量 , 第 58 行 将 输入 与 输出 关联 起 来 形成 最 基本 的 特征 提取 网 络 。 


60 

61 """ Train just the new layers, let the pretrained ones be as 
they are (they'll be trained later) """ 

62 for layer in resnet model.layers: 

63 layer.trainable = False 

64 


代码 第 61~63 行进 行 固定 参数 操作 ， 在 模型 训练 过 程 中 ， 这 部 分 的 参数 就 不 会 改变 ， 
因 其 在 ImageNet 上 进行 了 训练 ， 所 以 有 很 好 的 表达 效果 。 如 果 有 需要 的 话 ， 训 练 后 期 
可 以 对 这 部 分 最 后 几 层 的 参数 进行 微调 训练 。 


65 """ Building triple siamese architecture """ 

66 input shape- (224,224,3) 

67 input anchor - Input(shape-input shape, name-'input anchor') 
68 input positive = Input(shape-input shape, name-'input pos') 


69 input negative - Input(shape-input shape, name-'input neg') 


71 net anchor - base model(input anchor) 
72 net positive = base model(input positive) 
73 net negative = base model(input negative) 


74 
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75 positive dist = Lambda(euclidean distance, name-'pos dist') 
(Inet anchor, net positive]) 
76 negative dist = Lambda (euclidean distance, name-'neg dist') 


([net anchor, net negative]) 


77 

78 stacked dists = Lambda ( 

79 lambda vects: K.stack(vects, axis-1), 
80 name-'stacked dists' 


81 )([positive dist, negative dist]) 

82 opt = optimizers.Adam(1r-0.0005) 

83 

84 base model.compile(loss-fake loss, optimizer-opt) 

85 model generator - Model([input anchor, input positive, input 
negative], [net anchor,net positive, net negative], name-'gen') 

86 model generator.compile(loss-fake loss, optimizer-opt) 

87 

88 model - Model([input anchor, input positive, input negative], 
stacked dists, name-'triple siamese') 

89 model.compile(loss-triplet loss, optimizer-opt, 
metrics-[accuracy, mean pos dist, mean neg dist]) 

90 model.summary () 

om 


第 65~89 行 运用 前 面 的 base model 进行 了 采样 模型 和 训练 模型 的 定义 ， 所 有 的 模型 
都 是 共享 参数 的 。 第 66—73 行 利 用 base model 定义 了 三 元 组 输入 与 输出 的 模型 ， 并 在 第 
85 行 关 联 起 来 ， 这 个 模型 在 采样 时 有 用 。 第 84 行 与 第 86 行 都 使 用 了 0 作为 损失 值 进行 
模型 编译 ， 并 没有 参与 训练 。 

第 75-76 行进 行 相似 距离 计算 ， 然 后 在 第 78 行将 结果 合并 到 网 络 层 中 ， 在 第 88 行 
将 三 元 组 输入 与 最 后 的 输出 〈 即 两 个 相似 距离 关联 起 来 ， 然 后 在 第 89 行使 用 triplet_ 
loss 损失 函数 进行 编译 ， 同 时 观测 accuracy, mean pos dist, mean neg dist 几 个 指标 的 
变量 。 

92 """ Training """ 

93 batch size = 128 
94 graph = tf.get default graph() 


95 print ("Preparing generator") 
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96 datapath = r'/image retrieval data/train/' 
97 training generator = DataGenerator (model generator,graph,dim ` 
x-224, dim y-224, batch size-batch size, dataset path-datapath). 


generate () 


98 

99 model Dt generator(generator = training generator, 

100 steps per epoch - (72000/2)/batch size, 
101 epochs - 10) 

102 


103 base model.save("model clothes.h5") 


最 后 就 是 设置 batch 大 小 ， 并 指定 训练 数据 的 路 径 ， 传 入 DataGenerator, HT 
ResNet 接收 的 是 224X224 图 片 大 小 ， 所 以 此 处 设置 dim x=224，dim y=224。 然 后 使 用 
model Dt generator 进行 训练 , 其 中 , steps_per_epoch 的 大 小 应 该 为 “样本 总 数 /batch hr, 
这 里 用 训练 目录 下 所 有 图 片 的 总 数 72 000， 由 于 采样 过 程 中 anchor 是 隔 1 采样 ， 所 以 进 
行 了 除 2 操作 。 最 后 只 需要 保存 基础 的 base model 模型 就 可 以 了 。 


7.4.3 采样 文件 
采样 文件 triplets_samplerpy 的 内 容 如 下 : 


1 import os 

2 import random 

3 import numpy as np 

4 from tensorflow.python.keras.preprocessing import image 

5 from tensorflow.python.keras.applications.resnet50 import 
preprocess input 

6 from tqdm import tqdm 


SE 
8 imgs per class-10000 £max anchor index per class 
g 
10 def get subdirectories(a dir): 
dut return [name for name in os.listdir(a dir) 
as if os.path.isdir(os.path.join(a dir, name))] 
13 def img to np(path, x=224, y=224): 
14 nparray = image.load img(path,target size- (x,y)) 
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15 nparray = image.img to array (nparray) 

16 nparray = np.expand dims (nparray, axis=0) 
ET nparray = preprocess_input (nparray) 

18 nparray = np.squeeze (nparray) 

19 return nparray 


首先 导入 所 需 的 包 ， 再 定义 子 目录 获取 函数 get_subdirectories， 然 后 定义 从 图 片 路 
径 读 入 图 片 并 转换 为 NumPy 格式 的 函数 img to np， 主要 使 用 的 是 Keras 自 带 的 图 片 处 
理 函数 ， 读 者 可 查看 对 应 函数 的 细节 实现 过 程 ， 并 在 第 8 行 定 义 每 个 类 采样 最 大 的 个 数 。 


20 class DataGenerator (object): 


21 def | init  (self,model,graph, dim x = 224, dim y = 224, 
batch size = 10, dataset path = './some-dataset/20 classes'): 

22 self.dim x = dim x 

23 self.dim y = dim y 

24 self.batch size = batch size 

25 self.dataset path = dataset path 

26 self.model-model 

Si self.graph=graph 

28 

29 def generate (self): 

30 "Generates batches of samples' 

ST # Infinite loop 

32 while 1: 

33 image IDs = self. make triplets() 

34 

35 # Generate batches 

36 imax = int (len(image IDs)/self.batch size) 

37 for i in range(imax): 

38 # Find list of IDs 

S9 image IDS temp = image IDs[i*self.batch 
size: (i+1)*self.batch sizel 

40 

41 # Generate data 

42 X = self. data generation(image IDS temp) 

43 y Stacked = np.ones((self.batch size,2, dB E 


not used by triple loss function 
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yield X,y stacked #,y anch,y pos,y neg] 


第 20-45 行 主要 进行 了 采样 类 的 定义 ， 第 21-27 行为 初始 化 过 程 ， 主 要 初始 化 一 
些 后 面 函数 会 用 到 的 常量 。 第 290-45 行 定 义 了 生成 器 函数 ， 使 用 了 无 限 循环 一 直 生 成 
三 元 组 样本 ， 其 中 会 调用 “make triplets 这 个 函数 。image IDs 表示 所 有 的 三 元 组 样本 
总 数 ， 一 条 三 元 组 样本 的 格式 为 anchor path. positive path, negative path。 然 后 进行 
循环 提取 batch， 循 环 次 数 为 “三 元 组 样本 batch 大 小 ”， 在 这 个 过 程 中 会 使 用 函数 ` 
data generation 来 将 图 像 地 址 转换 为 NumPy 格式 ， 并 串 接 成 batch。 然 后 制作 假 的 真 值 
y_stacked， 它 与 训练 文件 train.py 中 第 78 行 的 stacked dists 对 应 起 来 ， 但 因为 最 终 训练 
所 用 的 triplet loss 只 会 使 用 计算 过 程 中 计算 得 出 的 stacked_dists 来 计算 loss, MEME y_ 
stacked 不 会 真 的 用 上 ， 只 是 为 了 在 Keras 中 构建 网 络 提供 方便 。 最 后 使 用 yield 返回 每 


个 batch 的 数据 。 


46 
47 
48 
49 


def make triplets (self): 


classes = get subdirectories (self.dataset path) 
#ignore classes with less 4 imgs 


classes = [c for c in classes if len(os.listdir(os. 


path.join(self.dataset_path, c))) > 4] 


50 


random. shuffle (class) # shuffle classes to make sure 


different sampling each iteration 


SE 
ER 
53 
54 
55 
56 
5 
58 
59 
60 
61 
62 
63 
64 
65 


all_triplets = [] 
for c in tqdm (classes): 
pos dir = os.path.join(self.dataset path, c) 
imgs pos = os.listdir(pos dir) 
class triplets - [] 
anchor batch - [] 
positive batch - [] 
negative batch - [] 
anchors-[] 
positives-[] 
negatives-[] 
for idx in range(0,len(imgs pos),2): 
if idx»-imgs per class: 
break 
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66 anchor-img to np(os.path.join(self.dataset ` 
path, c + '/' + imgs pos[idx])) 

67 EENS 

68 positive-img to np(os.path.join(self. 
dataset path, c + '/' + imgs pos[idx*1])) 

69 except IndexError: 

70 idx--1 

TE positive-img to np(os.path.join(self. 
dataset path, c + '/' + imgs pos[idx*1])) 

72 

13 rand_class = random.choice([x for x in classes 
if x != c]) # choose a different class randomly 

74 neg = random.choice(os.listdir(os.path. 


join(self.dataset_path, rand_class))) 


75 negativel = img to np(os.path.join(self. 
dataset path, rand class + '/' + neg)) 

76 

T anchor batch.append (anchor) 

78 anchors.append(imgs pos[idx]) 

79 positive batch.append (positive) 

80 positives.append(imgs pos[idx*1]) 

81 negative batch.append (negativel) 

82 negatives.append(rand class + '/'* neg) 

83 

84 with self.graph.as default(): 

85 preds = self.model.predict ( 

86 [np.asarray (anchor batch), 


np.asarray(positive batch), np.asarray (negative batch)]) 


87 

88 preds anch = np.asarray (preds[0]) 

89 preds pos = np.asarray(preds[1]) 

90 preds neg = np.asarray (preds[21) 

Su 

92 

93 for i,anch in enumerate (preds anch): 

94 least sim pos idx,most sim neg idx-self. least 





similar(preds anch[i],preds pos,preds neg) 
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95 class triplets.append([c*'/'*imgs pos[i], 
ct'/'t*positives[least sim pos idx], negatives[most sim neg _idx]]) 
96 
97 all triplets += class triplets 
98 
99 triplets = np-array(all triplets) 
100 np.save ("triplets _paths-npy", triplets) 
101 np. random. shuffle (triplets) 
102 print (triplets.shape) 
103 
104 return triplets 
105 


以 上 代码 第 46-104 行 定义 了 三 元 组 采样 函数 。 其 中 第 47-50 行 首先 获取 了 目标 训 
练 目 录 下 所 有 的 类 别 ， 并 剔除 了 少 于 4 张 图 片 的 类 别 ， 然 后 做 了 乱 序 操 作 ， 以 保证 每 轮 
采样 的 随机 性 (体现 在 batch F) 。 然 后 初始 化 总 的 三 元 组 样本 空 列 表 all triplets, tqdm 
用 于 观察 处 理 类 别 的 进度 。 

对 每 个 类 别 ， 都 会 进行 三 元 组 采样 ， 包 含 第 53-97 行 的 代码 块 。 首 先 初始 化 变量 ， 
然后 按 步 长 2 对 采样 类 的 图 片 进 行 扫描 。 第 1 张 图 片 初始 化 为 anchor， 将 第 2 张 图 片 初 
始 化 为 positive， 下 标 超 出 每 类 最 大 考虑 数 imgs_per_class 后 就 停止 扫描 ， 如 果 最 后 一 张 
图 片 为 anchor， 那 么 它 对 应 的 positive 就 为 第 1 张 图 片 ， 这 样 就 把 这 个 类 所 有 的 anchor 
和 positive 对 应 起 来 了 。 

接 下 来 就 是 确定 negative 样本 ， 其 主要 流程 如 下 : 对 于 每 一 组 anchor 和 positive， 
随机 选择 一 个 其 他 类 与 anchor 不 同 ， 即 与 当前 类 AAD) ， 然 后 在 该 类 rand class 中 
随机 挑选 一 张 图 片 作为 negative， 组 成 对 应 的 三 元 组 样本 ， 并 将 其 转化 为 对 应 的 NumPy 
数据 。 如 果 仅 使 用 这 些 步骤 ， 很 容易 得 到 easy negative， 所 以 后 面 对 当 前 采样 类 的 三 元 
组 还 要 做 一 个 特征 提取 并 排序 筛选 的 操作 ， 其 意义 类 似 于 在 batch 中 寻找 好 的 negative, 
这 里 只 是 在 采样 类 中 做 的 测试 。 

首先 使 用 模型 进行 特征 提取 ， 得 到 特征 之 后 ， 对 应 于 某 个 anchor， 利 用 _least_ 
similar 函数 获取 好 的 positive 相对 路 径 和 negative 绝对 路 径 ， 并 将 其 添加 到 当前 采样 类 
的 class_triplets 三 元 组 列表 中 ， 对 当前 类 所 有 anchor 做 同样 的 操作 ， 最 后 将 当前 类 的 
class triplets 添加 到 总 的 三 元 组 样本 alt triplets 列表 中 。 

对 所 有 的 类 都 做 以 上 操作 ， 便 可 得 到 总 的 三 元 组 路 径 样本 all triplets。 使 用 第 102 
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行 查看 对 应 的 形状 ， 可 以 得 到 类 似 于 N3) HAR, KRA N 个 三 元 组 样本 。 
代码 中 涉及 的 重要 变量 及 意义 如 下 。 


* pos dir: 当前 采样 类 的 目录 ， 也 可 算 作 positive 的 目录 

e imgs pos: 当前 采样 类 的 图 片 列表 ， 内 容 为 图 片 的 相对 路 径 

e class triplets: 当前 采样 类 的 三 组 元 列表 ， 内 容 为 [anchor path, positive path, 
negative path] 

e anchor batch: 当前 采样 类 anchor 的 列表 ， 内 容 格 式 为 NumPy 

© positive batch: 当前 采样 类 positive 的 列表 ， 内 容 格式 为 NumPy 

© negative batch: 当前 采样 类 negative 的 列表 ， 内 容 格 式 为 NumPy 

e anchors: 当前 采样 类 anchor 的 列表 ， 内 容 为 图 片 的 相对 路 径 

e positives: 当前 采样 类 positives 的 列表 ， 内 容 为 图 片 的 相对 路 径 

e negatives: 当前 采样 类 negatives 的 列表 ， 内 容 为 图 片 的 相对 路 径 





06 # get examples from the same class 

07 def least similar(self, anch, preds pos, preds neg): 

08 def euclidean distance (x,y): 

09 return np.linalg.norm(x-y) 

10 least sim pos-preds pos[0] 

TEE least sim pos idx-0 

Do least sim dist-euclidean distance(anch,least sim pos) 

13 for i,candidate in enumerate(preds pos): 

14 if euclidean distance (anch,candidate)»least sim 
dist: 

T5 least sim pos = candidate 

116 least sim pos idx-i 

117 least sim dist = euclidean distance (anch, 


least sim pos) 


118 

119 most sim neg = preds_pos[0] 

120 most sim neg idx = 0 

dE 

122 most dist = euclidean distance(anch, most sim neg) 
23 # hard-negative 

124 4 for i,candidate in enumerate (preds neg): 
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125 4 if euclidean distance (anch, candidate) < most ` 
dist: 
126 # most_sim neg = candidate 
127 # most sim neg idx-i 
128 $ most dist = euclidean distance(anch, most ` 
sim neg) 
29 #semi-hard-negative 1st choice, hard-negative 2nd 
choice 
30 semi neg = None 
31 semi_neg_idx = None 
32 semi_neg_dist = None 
133 for i,candidate in enumerate (preds neg): 
34 if euclidean distance(anch, candidate) « most dist: 
135 most_sim neg = candidate 
136 most_sim neg_idx=i 
37 most_dist = euclidean_distance (anch, most_sim_ 
neg) 
38 
39 if most_dist > least_sim dist and least_sim dist + 
0.5 > most dist: 
40 semi neg - most sim neg 
41 semi neg idx - most sim neg idx 
42 semi neg dist - most dist 
143 
144 if not semi neg idx: 
45 semi neg = most sim neg 
46 semi neg idx - most sim neg idx 
147 semi neg dist = most dist 
148 
149 return least sim pos idx,semi neg idx 
150 


接 下 来 在 第 107~149 行 定义 了 如 何 对 某 个 特定 的 anchor 在 限定 positive 和 negative 
选择 范围 的 情况 下 获取 好 的 positive 和 negative 的 过 程 。 对 于 positive， 此 处 选择 了 相 
似 度 差异 最 大 的 ， 即 欧式 距离 最 大 的 项 ， 由 于 在 前 面 已 选择 的 positive 是 同类 的 ， 与 
anchor 相 邻 的 图 片 ， 故 在 此 不 作 筛选 ， 理 论 上 也 是 可 以 的 ， 有 兴趣 的 读者 可 以 尝试 。 对 
于 negative， 可 以 选用 hard negative 也 可 以 选用 semi-hard negative， 此 处 的 操作 是 : 对 
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于 每 个 候选 的 negative， 优 先 选择 满足 semi-hard 条 件 的 ， 其 次 选择 hard negative, ix Hi 
semi-hard 使 用 的 margin Æ 0.5, RT hard coding， 读 者 可 以 根据 实际 情况 进行 调整 。 最 
后 将 返回 好 的 positive 和 negative 下 标 ， 如 果 不 需 要 修改 positive， 读 者 可 自行 尝试 修改 
对 应 代码 ， 看 看 效果 如 何 。 





Sz def | data generation(self, image IDs): 

52 

H5 anchor batch - [] 

54 positive batch - [] 

55 negative batch - [] 

56 

ST for img_path in image_IDs: 

58 #print (img_path) 

59 anchor = img to np(os.path.join(self.dataset path, 
img path[0])) 

60 positive = img to np(os.path.join(self.dataset 
path, img path[1])) 

61 negative = img to np(os.path.join(self.dataset ` 
path, img path[2])) 

62 

63 anchor batch.append (anchor) 

64 positive batch.append (positive) 

65 negative batch.append (negative) 

66 

67 return [np.array(anchor batch), np.array(positive ` 


batch), np.array (negative batch)] 


最 后 就 是 采样 中 使 用 的 一 个 小 函数 ， 利 用 三 元 组 路 径 生 成 对 应 的 NumPy 数据 ， 
输入 为 一 个 三 元 组 样本 路 径 列 表 ， 如 [[anchor_path_1, positive path 1, negative path 1], 
[anchor path 2, positive path 2, negative path 2], …]。 


7.4.4 模型 训练 


训练 时 执行 python train .py 就 可 以 了 ， 其 输出 如 下 : 
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Layer (type) Output Shape Param # Connected to 
input_anchor (InputLayer) (None, 224, 224, 3) 0 

input_pos (InputLayer) (None, 224, 224, 3) 0 

input_neg (InputLayer) (None, 224, 224, 3) 0 

resnet_model (Model) (None, 512) 24899456 input _anchor[0] [0 


input_pos[0] [0] 
input_neg[0] [0] 





pos_dist (Lambda) (None, 1) 0 resnet model[1][0 
resnet model[2][0] 





neg dist (Lambda) (None, 1) 0 resnet model[1][0 


resnet model[3][0 











stacked dists (Lambda) (None, 2, 1) 0 pos dist[0] [0] 
neg dist[0] [0] 








Total params: 24,899,456 
Trainable params: 1,311,744 
Non-trainable params: 23,587,712 


以 上 训练 模型 的 结构 和 参数 ， 重 点 关注 了 Trainable params, JAA 130 万 的 可 训练 
参数 ， 意 味 着 训练 过 程 主要 就 是 更 新 这 些 参数 。 模 型 训练 时 的 输出 如 下 ， 可 见 是 很 典型 
的 Keras 输出 : 


Preparing generator 

Epoch 1/10 

” . DEIDIEIEIEIEIEEEEIEIGIEEIEIEDET DEED ees 
3418/3418 [24:28«00:00, 2.33it/s] 

(365/11, 3) 





= 26355- 95/3tep = losa: 
0.4357 - accuracy: 0.8685 - mean pos dist: 0.9858 - mean neg dist: 
1:2978 
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Epoch 2/10 

- EHE ES E EST ETE ES ES EET E ES ES ES ES ES EST ESTEE E ES ES DEIER ` 
3418/3418 [24:17«00:00, 2.34it/s] 

(36571, 3) 

282/281 = 2657s 9s/step — loss: 
0.3636 - accuracy: 0.8944 - mean pos dist: 0.9450 - mean neg dist: 
1.3129 








Epoch 3/10 

100: MEIN TETESTESTESTESTESI EET EST ESTESTEST EST EST EST EST E E E ES ELE || 
3418/3418 [25:03«00:00, 2.27it/s] 

(36571, 3) 

282/281 - 2668s 9s/step - loss: 





0.2718 - accuracy: 0.9463 - mean pos dist: 0.8884 - mean neg dist: 
1.3069 
Epoch 4/10 
”“ DEIEIDIEIEIEIEIEDIEIEIE ESTE ES ESTE ESSERE ES EET ES ESTE EET ERES 
3418/3418 [24:13«00:00, 2.35it/s] 

(36571, 3) 

282/281 - 2616s 9s/step - loss: 
0.2345 - accuracy: 0.9576 - mean pos dist: 0.8590 - mean neg dist: 
agna 

Epoch 5/10 

e n IEEE ESTE ESTEE ESL ESTEE ESTESEST EEGEN ` 
3418/3418 [24:22«00:00, 2.34it/s] 

(36571; 3) 

282/281 = 26335 9s/átep = Toss: 
0.2156 - accuracy: 0.9650 - mean pos dist: 0.8412 - mean neg dist: 
1.3160 

Epoch 6/10 

 EHENEHESIEHEETESTEET SESS EST ES ES ESTEST ESTEE ESTEE ET E] ET DEEG ` 
3418/3418 [24:17«00:00, 2.34it/s] 

(36571, 3) 

282/281 = 26289 95/step = loss: 
0.1923 — accuracy: 0.9716 — mean pos dist: 0.8319 — mean neg disti 
a 3239 

Epoch 7/10 

^ ` EESTI EST EST TEST ISTIS TES ESSE ES EST ES EST ESI ES ES SEES EST EST EST SES EESTI ` 
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3418/3418 [24:14«00:00, 2.35it/s] 
(36571, 3) 
282/281 [==============================] - 2635s 9s/step - loss: 


0.1812 - accuracy: 0.9728 - mean pos dist: 0.8265 - mean neg dist: 
1-3328 

Epoch 8/10 

TEE E ES ET ES ES E ES EST EE ESTEE ES EST ESI ES ESTEE E ET ES ES ESTEE E ETE. 
3418/3418 [24:21«00:00, 2.34it/s] 

(36571, 3) 


282/281 [==============================] - 2649s 9s/step - loss: 


0.1667 - accuracy: 0.9766 - mean pos dist: 0.8143 - mean neg dist: 
1.3402 

Epoch 9/10 

O EIBIEIEIEIEITIEEIEIEIEEIIEEIEIBEDEBEEEEIEIEEIEEIEEEC | 
3418/3418 [24:13«00:00, 2.35it/s] 

(36571, 3) 


0.1676 - accuracy: 0.9759 - mean pos dist: 0.8133 - mean neg dist: 
1.3395 
Epoch 10/10 
O  BIEIBIEIEIETEIBIEIETEIEIEIEIESESEIEIESETEIEIEIETEIEIEIEIETE]E] - 
3418/3418 [24:17«00:00, 2.35it/s] 

(36571, 3) 





282/281 [==============================] - 2627s 9s/step - loss: 


282/281 ==============================] - 2634s 9s/step - loss: 


0.1535 - accuracy: 0.9786 - mean pos dist: 0.8017 - mean neg dist: 
1.3452 








本 次 训练 进行 了 10 轮 ， 每 轮 都 会 重新 采样 ， 黑 色 的 进度 条 表示 采样 过 程 ， 然 
打印 出 总 样本 的 形状 。 接 着 进行 训练 ， 训 练 一 轮 需 要 的 时 间 约 为 2 600s。 可 以 看 到 
着 训练 轮 数 的 增加 ， 训 练 的 损失 值 是 在 降低 的 ， 准 确 率 是 上 升 的 ， 说 明 模 型 学 习 到 
用 知识 。 同 时 还 可 以 关注 mean pos dist 与 mean neg_dist， 最 后 完成 训练 时 ， 它 们 
分 别 为 0.8 和 1.3， 相 差 0.5， 这 也 是 在 采样 semi-hard negative 过 程 中 使 用 0.5 的 原 
但 损失 函数 处 使 用 的 是 1， 作 用 是 让 它们 分 得 更 开 。 











后 会 
， 随 
了 有 
的 值 
Al, 
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7.4.5 模型 测试 


对 于 测试 代码 evaluate py，mAP 和 mRecall 主要 基于 带 顺序 的 指标 算法 ?。 


import os 
import glob 
import tqdm 


import numpy as np 


os.environ["CUDA DEVICE ORDER"] = "PCI BUS ID" 
os.environ["CUDA VISIBLE DEVICES"] = "0" 





1 
2 
3 
4 
5 from collections import OrderedDict 
6 
T 
8 
9 import tensorflow as tf 

0 from tensorflow.python.keras import backend as K 
11 config = tf.ConfigProto() 

12 config.gpu_options.allow_growth=True 


13 session = tf.Session (config=config) 
15 K.set_session (session) 


17 from tensorflow.python.keras.preprocessing import image 
18 from tensorflow.python.keras.applications.resnet50 import 
preprocess input 


19 from tensorflow.python.keras.models import load model 


20 

21 def fake lọss( +; m) 

22 return K.constant (0) 
23 


第 1-19 行 导 入 必要 的 包 ， 并 对 GPU 进行 设置 ， 再 导入 图 像 预 处 理 和 模型 加 载 函 数 。 
第 21-22 行 定 义 常 量 loss 函数 ， 在 加 载 模型 时 会 用 到 ， 参 见 文件 最 后 一 行 ， 在 load_ 
model 使 用 custom objects 字典 传 入 。 


24 def sim sort (anch,filenames, predictions): 


25 def euclidean distance(x, y): 
26 return np.linalg.norm(x - y) 
2 了 sims-() 


9 https://yongyuan.name/blog/evaluation-of-information-retrieval.html 
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28 
29 
30 
31 
32 
33 
34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
5i 
ER 
53 
54 
55 
56 
5m 
58 
59 
60 
61 
62 
63 
64 


def 


def 
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for i, candidate in enumerate (predictions): 
sims[filenames[i]]-euclidean distance(anch, candidate) 


return OrderedDict(sorted(sims.items(), key-lambda t: t[1])) 


AP(sim, class name, class len, true rights): 
correct = 0 
prec_sum = 0.0 
recall sum = 0.0 
Les 
ititems-sim.iteritems() 
except: 
ititems=sim. items () 
for i, (file,score) in enumerate(ititems): 
if i == 0: continue 
if i> 11: break 
print (file, score) 
if file.rsplit(r"/",2)[1]--class name: 
correct += 1 
prec sum += correct/(i) 
recall sum += correct/true rights 
if correct == 0: 
return 0,0 


return prec sum/correct, recall sum/correct 


MAP(preds, all files): 
sumAP=0 
sumrl10 = 0 
to_skip = 0 
for ii, (pred,file) in enumerate (zip(preds,all files) ,1): 
#print (f"similarity for {file}:",end="\t") 
sim = sim sort (preds[ii-1], all files, preds) 
true rights = len(os.listdir(file-rspiit(r"/",1)[0]1)) = 1 
Lif true rights == 0: 
to skip += 1 
continue 


apar = AP (sim, file-rsplit(r^/",2) [E]; 49, true rights) 
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65 #print (ap, correct, true rights) 

66 sumAP += ap 

67 sumr10 += ar 

68 if ii$100 == 0: 

69 print (f'mAP:\t{sumAP/(ii-to_skip) }\tRecall:\ 
t(sumr10/ (ii-to_skip)}') 

70 

TE return sumAP/ (len (batch_files)-to_skip),sumr10/ (len (batch_ 


files) -to skip) 
72 


第 24-71 行 定义 了 计算 mAP 和 mRecall 的 过 程 。sim_ sort 函数 的 主要 功能 是 对 一 个 
搜索 图 像 在 整个 数据 集中 进行 相似 度 计 算 ， 并 根据 相似 度 进行 排序 ， 并 返回 一 个 字典 : 
键 为 候选 图 像 路 径 ， 值 为 候选 图 像 与 搜索 图 像 特征 的 相似 度 指标 ， 这 里 使 用 距离 12。 
MAP 和 AP 两 个 函数 的 主要 作用 就 是 计算 返回 特定 的 相似 个 数 〈 此 处 是 Top 100 , Beit 
路 径 中 类 别 变量 与 搜索 图 片 路 径 中 的 类 别 是 否 一 样 ， 如 果 一 样 则 计数 correct 加 1， 然 后 
除 以 当前 返回 结果 的 下 标 数 ， 加 起 来 再 作 平均 ， 这 就 是 单 张 图 片 搜索 的 mAP, recall it 
算 类 似 ， 但 recall 计算 中 的 除数 为 搜索 图 片 类 别 目录 下 所 有 图 片 的 总 数 tue rights, 448) 
单 张 图 片 搜索 的 mRecall, 这 就 是 AP 函数 的 功能 。 然 后 MAP 做 的 就 是 循环 搜索 所 有 图 片 ， 
得 到 所 有 图 片 的 mAP 和 mRecall， 最 后 作 平均 ， 得 到 测试 集 上 总 的 mAP 和 mRecall。 在 
第 67-69 行 会 打印 输出 MAP 和 mRecall 的 变化 过 程 ， 可 做 参考 。 


73 def test full (model): 


74 dataset path = r'/image retrieval data/test/' 

TS 

76 classes = os.listdir(dataset_path) 

77 imgs = list() 

78 for cls in classes: 

79 temp = glob.glob(os.path.join(dataset path,cls, r'*. 
jpg'), recursive-True) 

80 if len(temp) » 6: 

81 imgs += temp 

82 

83 batch_size = 1024 

84 all les qn 
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85 

86 imax = len(imgs)//batch size 

87 print (imax) 

88 

89 for ii in range(0,len(imgs), batch size): 

90 batch-[] 

91 for img path in tqdm.tqdm(imgs[ii:ii*batch size]l): 

92 try: 

93 img = image.load img(img path, target 
size=(224,224)) 

94 except: 

35 continue 

96 img = image.img_to_array (img) 

97 img = np.expand dims (img, axis=0) 

98 img = preprocess_input (img) 

99 img = np.squeeze (img) 

00 batch.append (img) 

01 batch files.append(img path) 

02 

03 preds = model.predict ([np.asarray (batch) ]) 

04 if ii == 

05 all preds - preds 

06 else: 

07 all preds - np.concatenate((all preds, preds)) 

108 

09 print(all preds.shape) 

10 print(all files[0]) 

111 

alii print (f"Final mAP:\t{MAP(all preds, all files) }") 

13 

14 if name == " main H: 

115 test full(load model("model clothes.h5", custom ` 


objects-('fake loss': fake loss])) 


最 后 第 73~112 行 就 是 定义 测试 函数 ， 其 主要 接收 的 参数 是 Keras 加 载 好 的 模型 。 
可 以 从 第 115 行 看 到 ， 使 用 load model 可 以 加 载 在 train.py 中 保存 的 模型 ， 注 意 此 处 需 
要 使 用 custom objects-('fake loss' fake loss) 这 个 参数 ， 将 前 面 定 义 好 的 常量 损失 函数 
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注册 到 Keras 中 。 然 后 定义 需要 测试 的 目录 dataset path， 此 处 为 /image retrieval data/ 
test/， 同 时 扫描 所 有 类 的 图 片 ， 少 于 6 张 的 剔除 ， 不 测试 。 剔 除 的 原因 是 此 处 测试 的 是 
Top 10 返回 ， 如 果 类 别 目录 下 图 片 很 少 ， 那 么 其 AP 自然 就 少 ， 会 拉 低 模型 表现 ， 本 书 
认为 剔除 操作 会 更 加 真实 地 反应 模型 的 好 坏 , 读者 此 处 可 自行 修改 ,数字 6 是 随意 选择 的 ， 
读者 也 可 以 尝试 用 其 他 数字 。 接 着 便 是 批量 提取 图 片 特 征 ， 这 里 使 用 的 batch_size 为 
1024， 这 样 可 以 充分 利用 GPU， 读 者 可 以 根据 自己 的 硬件 情况 调整 数值 大 小 。 完 成 特征 
提取 后 需要 将 特征 与 路 径 一 一 对 应 起 来 , 由 于 路 径 是 字符 串 , 使 用 hspy 格式 相对 较 困难 ， 
这 里 做 了 处 理 ， 直 接 对 应 好 后 ， 分 别 存 入 两 个 变量 all preds 和 all files， 然 后 传 入 MAP 
函数 。 最 后 当 执行 本 文件 时 就 会 执行 第 115 行进 行 测试 。 
PUT python evaluate.py， 其 搜索 结果 如 下 : 


mAP 0.7255968110661851 Recall: 0.10077466678369416 
mAP 0.7257797606883717 Recall: 0.10112356063801763 
mAP 0.7254789643788064 Recall: 0.10119141838893088 
mAP 0.7245794201873919 Recall: 0.10108530445857364 
mAP 0.7240651179782432 Recall: 0.1011274005439267 

mAP 0.7239073025288596 Recall: 0.10133507699350873 


Final mAP: 0.7234160442681565, Final Recall:0.10122461405385283 


可 以 看 到 返回 Top 10, 平均 有 7 个 是 同类 别 的 ， 而 Recall 比较 低 ， 其 原因 是 有 的 类 
别 下 图 片 数 较 多 ， 比 如 100 个 ， 那 么 假设 返回 10 都 是 同类 别 ， 那 么 Recall 也 就 是 0.1. 
读者 如 果 使 用 不 同 的 数据 进行 训练 和 测试 ， 结 果 应 该 会 有 很 大 的 不 同 。 


7.4.5 结果 可 视 化 


如 果 读 者 想 可 视 化 搜索 结果 ， 可 以 将 all preds 和 all files 保存 起 来 ， 可 在 第 110 行 
后 加 入 以 下 语句 : 
with open('test paths.txt','w') as imgfile: 
for im in tqdm.tqdm(all files): 


imgfile.write (im+'\n") 


np.save('test features.npy',all preds) 
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如 果 已 经 做 了 上 述 操作 ， 即 保存 了 测试 图 片 的 路 径 和 对 应 特征 ， 那 么 在 Jupyter 中 
就 可 以 进行 可 视 化 : 
import numpy as np 
with open('Inshop margin paths.txt','r') as imgfile: 
all files = [line.strip() for line in imgfile.readlines()] 


all preds - np.load('Inshop margin feats.npy') 


首先 将 图 片 路 径 文件 和 特征 文件 加 载 ， 然 后 可 以 使 用 以 下 语句 查看 有 多 少 条 数据 ， 
路 径 条 数 是 否 和 特征 条 数 匹配 。 目 前 特征 是 512 维 的 向 量 ， 这 在 训练 文件 train py 中 网 
络 定义 那 块 有 个 数值 512 就 代表 了 最 后 的 特征 维度 ， 读 者 可 以 尝试 调整 。 


len(all files),all preds.shape 
执行 结果 为 : 
(17571, (17571, 512)) 


然后 导入 其 他 包 ， 主 要 是 用 于 距离 计算 以 及 排序 的 函数 ， 这 里 可 以 使 用 bottleneck 
中 的 argpartition 函数 ， 它 可 以 快速 获取 Top K 的 下 标 ， 但 注意 返回 的 Top K 没有 严格 的 
大 小 顺序 , 这 对 真实 测试 mAP 会 有 影响 , 但 对 可 视 化 影响 不 大 , 为 了 速度 , 在 此 注释 掉 了 ， 
如 果 读 者 想 使 用 ， 可 删除 注释 ， 并 注释 掉 后 面 严 格 的 大 小 排序 进行 搜索 的 函数 即 可 。 

另外 这 里 使 用 了 一 个 常量 N， 其 主要 作用 是 当 测 试 的 数据 量 非常 大 时 ， 比 如 几 
十 万 、 几 百 万 甚至 上 亿 ， 为 了 可 视 化 可 控 〈 硬 件 资源 是 有 限 的 ) ， 用 N 来 限制 可 视 化 数 
据 量 的 大 小 ， 比 如 设 为 50 000。 


import bottleneck as bn 

from sklearn.metrics.pairwise import pairwise distances 
N= 50000 

img paths = np.asarray (batch files[:N]) 

d mat = pairwise distances(all preds[:N],all preds[:N]) 


$matplotlib inline 

import matplotlib as mpl 

from PIL import Image 
mpl.rcParams['figure.dpi']- 120 
import matplotlib.pyplot as plt 
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#def search(i, img paths, d mat,k): 

d mat[i, i] = 1e10 

nns = bn.argpartition(d mat[i], k)[:k] 

_, figs = plt.subplots(1, Kri, figsize-(16,10)) 

figs [0] . imshow (Image.open(img paths[i]l)) 

figs[0].axes.get xaxis().set visible (False) 

figs[0].axes.get yaxis().set visible (False) 

for i,nn in enumerate (nns,1): 
figs[i].imshow(Image.open(img paths [nn])) 


figs[i].axes.get xaxis().set visible(False) 


de SR SR dB db db HR m dB ck 


figs[i].axes.get yaxis().set visible(False) 
from collections import OrderedDict 


def sim sort (anch,filenames, predictions): 
def euclidean distance(x, y): 
return np.linalg.norm(x - y) 
sims-() 
for i, candidate in enumerate (predictions): 
sims[filenames[i]]-euclidean distance(anch, candidate) 
return OrderedDict(sorted(sims.items(), key-lambda t: t[1])) 


def search(xx): 


sim-sim sort(all preds[xx],img paths,all preds) 


plt.figure (figsize- (20,40)) 

for i,(k,v) in enumerate (sim.items()): 
#if i--0:continue 
if i»9:break 
plt.subplot(1,10,i*1), 
plt.imshow (Image.open (k) ) 
plt.title(v) 
plit.axis('off"*) 

plt.show() 


然后 使 用 Matplotlib 对 Top K 进行 作 图 ， 使 用 search(i) 或 search(i, img paths, d 
ma ki 就 可 以 看 到 效果 了 。 结 果 如 图 7-3 所 示 ， 可 以 看 出 ， 搜 索 的 效果 总 体 还 是 不 错 的 ， 
其 中 第 一 张 图 为 搜索 图 ， 后 面 的 为 返回 的 图 ， 并 标明 了 相似 度 差异 值 。 
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图 7-3 图 像 搜 索 结果 一 
而 且 使 用 Margin Based Network 作者 开源 的 代码 训练 的 结果 进行 测试 时 ， 其 mAP 
高 达 惊 人 的 90%， 相 对 来 说 提高 了 17 个 百分点 ， 而 且 其 向 量 维度 仅仅 为 128 维 ， 这 是 
非常 厉害 的 。 其 可 视 化 结果 如 图 7-4 所 示 。 
图 7-5 与 图 7-6 是 在 同一 测试 集中 使 用 一 个 类 别 下 的 物体 来 测试 的 ， 两 种 模型 做 对 
比 可 以 明显 看 出 第 二 种 模型 效果 更 好 。 
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图 7-4 图 像 搜 索 结果 二 
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图 7-5 第 一 种 模型 上) 对比 第 二 种 模型 CF) 
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图 7-6 第 一 种 模型 (E) 对 比 第 二 种 模型 CF) 
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图 7-6 第 一 种 模型 (上 ) 对 比 第 二 种 模型 (下 ) (HD 
希望 笔者 对 图 像 搜 索 模 型 训练 和 测试 的 核心 已 讲 清楚 了 ， 当 读者 熟悉 这 些 之 后 就 可 
以 将 代码 写 得 更 加 优雅 ， 比 如 将 所 有 的 常量 单独 使 用 一 个 配置 文件 ， 这 样 每 次 要 修改 的 
时 候 都 简单 明了 ， 亦 或 使 用 argparse 在 命令 行动 态 调整 ， 本 示例 只 写 出 了 核心 代码 。 
这 里 使 用 的 是 电 商 图 片 数据 ， 不 便 公 开 。 但 读者 尝试 时 ， 可 直接 替换 为 自己 训练 和 
测试 目录 ， 然 后 进行 训练 和 测试 ， 当 然 在 这 个 过 程 中 少不了 调 参 优 化 的 工序 。 
调 参 优化 主要 包括 但 不 限于 以 下 几 个 方向 : 


COD 图 片 特征 向 量 的 维度 , 示例 中 的 代码 用 的 是 512 HE, 读者 可 尝试 128 维 、256 维 、 
1024 维 等 ， 并 观察 训练 的 效果 。 

(0 优化 算法 与 学 习 率 ， 示 例 中 使 用 的 是 Adam， 学 习 率 为 0.0004， 读 者 可 以 尝试 
其 他 的 算法 和 学 习 率 。 

(3) 基础 主干 网 络 ， 示 例 中 使 用 的 是 ResNet50， 其 他 还 有 VGG、Inception、 
Xception 和 MobileNet， 这 些 Keras 都 有 预 训练 模型 ， 读 者 可 以 分 别 尝试 。 

(4) 冻结 网 络 层 ， 示 例 中 将 ResNet50 主干 网 络 的 所 有 层 都 冻结 了， 参数 不 会 更 新 ， 
那么 在 训练 一 段 时 间 后 ， 是 否 可 以 解冻 其 中 几 层 继续 训练 呢 ? 读者 可 以 尝试 并 观察 效果 。 


maj 一 般 来 说 ， 网 络 越 靠 前 ， 其 越 偏向 基础 信息 ; 而 网 络 越 靠 后 ， 其 越 偏向 语 
义 信 息 ， 即 更 符合 人 类 的 视觉 感受 。 
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C50 新 加 网 络 层 的 层 数 与 类 型 ， 示 例 中 直接 在 ResNet50 后 面 加 了 几 个 全 连接 层 ， 
那么 到 底 加 几 个 会 更 好 呢 ? 中 间 是 否 需要 加 Dropout 层 呢 ? 这 些 都 是 值得 探索 的 方向 。 

(6) 损失 函数 中 的 margin 以 及 semi-hard negative 采样 的 margin， 这 两 者 也 是 可 以 
考虑 的 调 参 优化 方向 。 


另外 不 知道 细心 的 读者 有 没有 发 现 ， 在 采样 的 时 候 ， 本 书 作 了 一 个 很 强 的 假设 。 那 
就 是 假设 数据 集中 每 个 类 别 下 的 图 片 数目 是 比较 多 的 ， 至 少 有 20-30 张 。 因 为 如 果 很 少 ， 
比如 10 张 ， 笔 者 采样 anchor 和 positive 是 在 类 别 下 两 两 组 队 ， 线 性 扫描 的 ， 即 10 张 会 
组 成 5 个 样本 对 。 然 后 针对 这 5 个 样本 对 分 别 随机 挑选 其 他 类 的 5 张 图 片 ， 组 成 5 个 候 
选 三 元 组 样本 对 。 最 后 在 这 5 个 候选 三 元 组 样本 进行 好 的 positve 和 negative 筛选 。 可 以 
看 出 ， 当 类 别 下 候选 样本 对 比较 少时 ， 其 筛选 的 效果 不 一 定 会 很 好 。 所 以 通过 这 种 方式 
来 训练 ， 想 要 得 到 好 的 结果 ， 每 个 类 别 下 需要 比较 多 的 图 片 ， 具 体 需 要 多 少 得 根据 实际 
情况 来 考察 。 

基于 以 上 的 分 析 和 本 章 前 几 节 的 内 容 ， 可 以 提出 一 个 采样 的 优化 方向 : 在 batch 级 
DIREA positive 和 negative， 而 非 示 例 中 在 类 级 别 筛选 。 这 个 操作 也 不 会 很 复杂 ， 只 
需要 修改 采样 文件 的 部 分 代码 即 可 。 主 要 是 在 batch 级 别 进行 特征 提取 ， 计 算 相 似 度 并 
筛选 ， 然 后 重新 组 织 batch 输出 。 这 部 分 留 给 读者 做 练习 ， 和 希望 可 以 取得 满意 的 效果 。 


7.5 本 章 小 结 


本 章 介 绍 了 图 像 搜 索 中 常用 的 几 种 网 络 结构 。 

值得 一 提 的 是 ， 在 工业 级 别 的 图 像 搜索 应 用 中 ， 如 何 得 到 表达 能 力 好 的 特征 是 一 方 
面 ， 但 如 何在 海量 特征 中 进行 相似 度 的 计算 并 排序 又 是 另 一 难点 。 

目前 笔者 了 解 到 的 相似 度 计算 排序 的 工具 主要 有 Elastic Search” 和 Faiss", 这 属于 另 
一 领域 ， 本 书 不 作 详 细 介 绍 。 如 果 面 向 的 用 户 群 非常 大 ， 如 淘宝 网 的 “ 拍 立 淘 ”， 那 么 
高 并 发 也 是 工业 应 用 中 需要 考虑 的 因素 。 笔 者 也 实现 了 基于 Faiss 进行 快速 测试 搜索 效 
果 的 代码 ， 同 时 嵌入 训练 代码 中 ， 这 部 分 读者 可 以 自己 尝试， 当 作 练 习 。 





10 https://www.elastic.co/products/elasticsearch 
11 https://github.com/facebookresearch/faiss 
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图 像 搜 索 模型 可 以 作为 one-shot learning 或 zero-shot learming， 什 么 意思 呢 ? 其 实 简 
单 理解 就 是 传统 的 图 像 分 类 只 能 应 用 模型 见 过 的 类 ， 面 对 没 见 过 的 类 的 图 片 时 ， 模 型 只 
能 将 图 片 分 类 在 它 见 过 的 类 别 中 ;而 图 像 搜索 适用 性 更 广 ， 面 对 没 见 过 的 类 时 ， 理 论 上 
可 以 将 相似 或 相同 的 图 片 归 到 那 一 类 。 所 以 在 衣服 上 训练 了 的 模型 ， 如 果 没 有 食物 的 图 
片 训 练 集 ， 那 么 还 是 可 以 直接 应 用 在 食物 类 别 的 图 片上 进行 搜索 ， 当 然 如 果 有 食物 图 片 
训练 集 ， 在 上 面 进行 训练 效果 会 更 好 。 

如 果 面 对 海量 没有 类 别 标签 的 图 片 ， 怎 么 办 呢 ? 这 里 提供 一 个 思路 ， 用 一 个 在 很 
大 数据 集 上 训练 的 图 像 搜索 模型 去 对 海量 图 片 提 特 征 ， 然 后 对 这 些 特征 作 聚 类 ， 比 如 
K-Means， 这 样 就 可 以 把 相似 的 图 片 聚 在 一 起 ， 再 由 人 工 去 筛选 或 再 次 进行 聚 类 。 这 样 
应 该 会 大 大 地 节省 制作 海量 数据 的 人 力 和 时 间 成 本 。 
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到 目前 为 止 ， 本 书 所 介绍 的 深度 学 习 在 计算 机 视觉 方面 的 应 用 都 是 属于 监督 学 习 ， 
即 训练 样本 有 正确 答案 。 但 现实 生活 中 所 面临 的 问题 很 多 是 难以 获取 监督 学 习 所 用 的 样 
本 ， 或 者 进行 人 工 标注 成 本 非常 高 ， 现 在 一 种 常见 的 解决 方法 是 先 利用 在 其 他 数据 集 上 
训练 好 的 模型 在 未 知 的 数据 集 上 进行 分 类 或 聚 类 ， 然 后 再 由 人 工 进行 优化 标注 。 

计算 机 对 人 类 世界 的 理解 是 基于 一 大 串 数字 (向 量 或 张 量 ) 的 ， 如 [1,0,1,0] 代表 人 ， 
[0.5,0,0.5,0] 代表 猩猩 ，[0,1,3,0] 代表 鱼 …… 那 么 当 类 别 数 很 大 的 时 候 ， 这 个 量 的 维度 可 
能 就 会 变 得 非常 高 。 

其 实 图 像 也 可 以 算 作 是 一 种 高 维 向 量 ， 比 如 1920X1080 的 RGB 图 像 其 维度 就 是 
1920X1080X3。 基 于 这 种 认 知 ， 是 否 可 以 人 造 一 些 数据 让 计算 机 认为 这 就 是 真实 的 数 
H? 设想 一 下 ， 一 张 图 片 由 很 多 像素 组 成 ， 稍 微 改 变 其 中 一 个 或 几 个 像素 ， 结 果 人 眼 
看 上 去 修改 前 后 差异 不 大 ， 而 计算 机 虽然 从 数字 来 理解 时 两 者 是 有 区 别 的 ， 但 依然 会 认 
为 它们 都 是 一 个 类 别 的 ， 比 如 修改 前 是 不 笑 的 你 ， 而 修改 后 是 嘴角 微微 上 扬 的 你 。 这 种 
思路 可 行 吗 ? 答案 是 : 可 行 。 


第 8 章 图 像 生成 


图 像 生成 要 达到 的 目的 就 是 生成 相似 而 又 不 同 的 图 像 ， 且 最 好 符合 人 类 的 审美 观 。 
这 样 不 仅 可 以 丰富 监督 学 习 所 需要 的 数据 样本 ， 还 可 以 获得 许多 意料 之 外 的 惊喜 。 

本 章 将 关注 深度 学 习 在 图 像 生成 领域 的 应 用 ， 主 要 介绍 VAE、GAN 和 Style Transfer 
这 三 种 算法 。 


8.1 VAE 





8.1.1 VAE 介绍 


VAE 全 称 Variational Auto Encoder〈 变 分 自动 编码 器 ) ， 那 么 了 解 VAE 之 前 ， 需 要 简 
单 熟悉 Auto Encoder 的 概念 。 

Auto Encoder 中 文 翻译 为 自 编码 器 ， 其 主要 目的 是 将 高 维 矩阵 A 压缩 到 低 维 C， 然 
后 再 将 C 还 原 成 “A'”, 尽量 使 得 A=A', 即 无 损 。 以 下 简略 展示 了 AutoEncoder 主要 结构 ， 
此 处 的 高 维 矩 阵 是 一 张 图 片 ， 经 过 Encoder 变换 为 低 维和 矩阵 (可 能 是 三 维 、 二 维 或 一 维 ) , 
然后 再 通过 Decoder 将 低 维 矩 阵 转换 为 与 输入 大 小 对 应 的 图 片 ， 目 标 就 是 变换 前 和 变换 
后 的 图 像 尽量 相似 。 其 抽象 结构 如 图 8-1 所 示 。 

通过 这 种 手段 ， 可 以 设想 以 后 可 以 保存 比 现在 更 多 的 图 片 ， 因 为 只 需要 知道 
Encoder 和 Decoder， 然 后 保存 每 张 图 片 对 应 的 低 维 矩阵 表示 就 可 以 了 。 不 仅 在 保存 的 过 
程 中 用 途 很 大 ， 在 数据 传输 过 程 中 也 有 广泛 用 途 ， 发 送 100 张大 小 为 1MB 的 图 片 ， 不 
处 理 时 需要 传送 100X IMB 大 小 的 数据 ; 但 如 果 只 需要 传 0.001MB 大 小 的 低 维 数据 ， 那 
么 总 的 传送 量 就 是 100X0.001M 即 1IMB， 当 然 这 只 是 一 个 粗略 的 解释 ， 即 AutoEncoder 
可 以 用 作 数 据 压缩 但 在 实际 降 维 过 程 中 ， 难 免 会 有 信息 丢失 ， 故 还 原 的 数据 不 会 完全 
与 原始 数据 一 样 ， 那 么 如 果 此 时 将 原始 数据 与 还 原 数据 合 在 一 起 ， 整 个 数据 的 多 样 性 就 更 
加 丰富 了 ， 这 就 部 分 解决 了 数据 生成 的 问题 ， 将 生成 的 数据 应 用 在 计算 机 视觉 领域 就 有 了 
图 像 生成 。 

Encoder 和 Decoder 的 形式 多 样 ， 目 前 常用 于 神经 网 络 领域 ， 对 于 图 像 领域 来 说 ， 
常常 使 用 的 就 是 CNN。 那 么 Auto Encoder 就 是 为 整个 训练 过 程 设 定 的 目标 ， 这 个 目标 
就 是 让 输出 与 输入 的 差异 尽量 小 ， 而 这 种 差异 比较 最 简单 的 一 种 方法 就 是 对 比 每 个 像素 
点 的 差异 ， 然 后 累加 求 和 再 求 平均 ， 即 像素 级 别 的 MSE 操作 。 然 后 获取 损失 函数 值 对 
模型 参数 的 变化 ， 利 用 梯度 下 降 法 更 新 参数 ， 以 达到 降低 损失 函数 值 的 需求 ， 从 而 完成 
训练 。 
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图 8-1 Auto Encoder 结 


那么 VAE 是 什么 呢 ? 其 实 就 是 将 低 维 向 量 分 步 限 制 为 一 个 近似 的 正 态 分 布 ， 
故 Encoder 过 程 中 会 学 习 到 正 态 分 布 的 均值 (Mean) 与 标准 差 (Standard Deviation, 
STD) ， 然 后 利用 均值 与 标准 差 得 到 真正 的 低 维 变量 。 真 正 的 损失 函数 便 由 两 部 分 构 
成 一 一 输入 输出 差异 与 分 布 差异 。 其 中 分 布 差异 用 的 是 KL 散 度 ， 其 详细 推导 可 参见 
Tutorial on Variational Autoencoders:。 后 期 便 与 常规 的 神经 网 络 训练 相似 ， 使 用 优化 算法 
进行 参数 更 新 。VAE 的 结构 可 抽象 为 如 图 8-2 所 示 。 








Mean 














STD 








图 8-2 VAE 的 结构 


8.1.2 Chainer 版 本 VAE 示例 


这 里 使 用 Chainer 官方 网 站 ”的 示例 ， 但 将 train 代码 的 数据 集 (datasets.get_mnist) 
换 成 了 FashionMnist (datasets.get fashion mnist) 。 训 练 完 毕 后 ， 部 分 结果 如 图 8-3 所 示 ， 
可 以 看 出 ， 还 原 重建 后 的 图 片 比 原 图 更 加 模糊 ， 感 兴趣 的 读者 可 以 进行 尝试 。 


1 https://arxiv.org/pdf/1606.05908.pdf 


2 https://github.com/chainer/chainer/tree/master/examples/vae 





























测试 图 片 还 原 重 建 图 片 





8-3 VAE 训练 后 的 测试 结果 


8.2 生成 对 抗 网 络 GAN 





8.2.1 GAN 介绍 


GAN 全 称 Generative Adversarial Network， 中 文 翻译 为 生成 对 抗 网 络 ， 作 者 是 Ian J. 
Goodfellow， 其 论文 为 Generative Adversarial Networks’. 48 Y ff GAN 的 重要 意义 ， 可 以 
参见 人 工 智能 “大 牛 ”Yann LeCun 在 Quora 上 的 回答 *. 

目前 GAN 是 非常 流行 的 一 个 领域 ,网 上 有 专门 收集 各 种 GAN 变形 的 网 站 5。 所 以 
如 果 研 究 深度 学 习 在 图 像 生成 方面 的 应 用 ， 这 个 网 站 的 zoo 包罗 万 象 ， 如 能 研究 透彻 ， 
相信 你 的 实力 定 会 大 增 。 

GAN 主要 学 习 一 个 数据 分 布 ， 它 与 真实 的 数据 分 布 差异 非常 小 ， 并 实现 一 个 模型 ， 
它 能 够 从 学 习 到 的 分 布 中 进行 采样 。 

GAN 由 两 部 分 构成 ， 分 别 为 生成 网 络 Generator 和 判别 网 络 Discriminator， 其 主要 
流程 如 图 8-4 所 示 。 
















































































3 https://arxiv.org/abs/1406.2661 


4 www.quora.com/What-are-some-recent-and-potentially-upcoming-breakthroughs-in-unsupervised-learning 
5 github.com/hindupuravinash/the-gan-zoo 
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神经 网 络 可 以 简单 地 看 作 一 个 非常 大 且 复 杂 的 函数 ， 将 输 
入 x 映射 为 输出 y。 那 么 对 于 图 像 生成 来 说 ，Generator 要 做 的 
就 是 将 一 个 随机 输入 的 向 量 转换 (上 映射) 成 一 张 图 片 作为 输出 ， 
当 输 入 向 量 不 同时 就 输出 不 同 的 图 片 ， 不 同 的 输出 量 则 属于 需 



































要 学 习 的 数据 分 步 。 








这 里 可 将 Generator 理解 为 Auto Encoder 结构 中 的 Decoder 

















或 是 语义 分 割 中 的 上 采样 过 程 ， 只 不 过 通道 数 为 3; 而 








Discriminator 网 络 则 负责 验证 Generator 生成 的 图 片 好 不 好 ， 即 








生成 的 图 片 是 否 属于 真实 的 数据 分 步 。 
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当 从 一 个 真实 的 数据 集中 选取 一 张 图 片 作 为 输入 时 ， 
Discriminator 会 输出 一 个 接近 于 1 的 值 ， 表 示 非 常 相信 这 张 图 片 











图 8-4 GAN 流程 图 











是 真 的， 符合 人 类 的 视觉 感受 ， 而 当 输 入 Generator 生成 图 片 时 ，Discriminator 会 输出 一 


个 接近 于 0 的 值 ， 表 示 发 现 这 张 图 片 不 正常 ， 是 假 的 。Discriminator 
类 网 络 ， 在 输出 层 会 作 sigmoid 函数 ， 将 输出 控制 在 0-1 的 范围 内 。 
与 Auto Encoder 相 比 ，GAN 生成 的 图 片 更 加 真实 。 但 训练 GAN 





其 实 就 是 一 个 二 分 


相对 困难 (收敛 困 


XE) ， 超 参 选取 变 得 十 分 重要 ， 同 时 控制 生成 图 片 的 多 样 性 也 非 易 事 。 另 外 GAN 容易 





EMANARE DIE (model collapse) ， 即 模型 只 学 到 一 张 图 片 。 
神经 网 络 的 参数 是 随机 初始 化 的 ， 需 要 通过 不 断 地 训练 学 习 ， 才 
数 ， 那 么 Generator 和 Discriminator 怎么 训练 和 学 习 呢 ? 
其 实 Generator 和 Discriminator 可 以 形象 地 比喻 为 学 生 与 老师 , 学 
老师 教 作 图 。 





能 得 到 好 的 模型 参 


生 学 作 图 mm) ， 


学 生 从 幼儿 园 开始 什么 都 不 会 ， 然 后 乱 画 ， 作 了 一 张 图 出 来 ， 交 给 幼儿 园 的 老师 看 ; 





比如 线条 要 直 ， 等 等 。 经 过 一 年 的 学 习 ， 学 生 升 级 到 一 年 级 ， 又 画 了 
级 的 老师 ， 期 待 老 师 的 表扬 ， 结 果 老 师 又 指出 不 足 之 处 ， 原 来 学 生 在 





然后 正好 也 升级 为 一 年 级 的 老师 了 “当然 现实 情况 一 般 不 是 这 样 ) 。 

就 这 样 ， 学 生 在 进步 ， 老 师 也 在 进步 ， 他 们 相互 促进 ， 形 成 了 一 
的 作品 达到 大 师 水 准 ， 老 师 再 也 挑 不 出 毛病 ， 学 生 完美 毕业 。GAN 
样 一 个 类 似 的 过 程 完成 的 。 


























而 幼儿 园 老 师 看 过 更 多 好 的 真实 的 图 片 ， 就 指导 学 生 说 : 这 里 画 得 不 对 ， 那 里 画 得 不 好 ， 


一 幅 作品 交 给 一 年 
学 习 的 同时 ， 老 师 


也 在 不 断 进步 ， 如 怎么 教 好 学 生 ， 或 学 习 更 多 名 家 好 的 作品 ， 或 对 学 生 的 作品 挑 缺点 等 ， 


TER, BIFE 
的 训练 就 是 通过 这 
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真实 的 训练 流程 如 下 。 训 练 时 需要 一 个 真实 的 图 片 库 , 即 名 家 的 画作 , 进行 参考 学 习 ， 
这 里 使 用 G 代表 Generator 网 络 ，D 代表 Discriminator 网 络 : 


COD XE GA D 的 参数 进行 初始 化 。 
(2) 每 次 迭代 : 


D 固定 G 的 参数 ， 训 练 更 新 DD 的 参数 。 


CD 在 真实 图 片 样本 库 中 采样 m 个 样本 { x ,x?,.…,x”}。 

O 在 先 验 分 步 〈《 如 正 态 分 布 ) 中 采样 m 个 样本 Ter, 

@ 将 步骤 2 中 获得 的 样本 ， 送 入 G， 得 到 { dv ), X706). 
@ 利用 梯度 上 升 法 更 新 D， 以 求 获得 最 大 的 V: 


V-E{logD(x)}+E (log(1-DG:))) 
2) 固定 刀 的 参数 ， 训 练 更 新 G 的 参数 。 


@ 重新 在 先 验 分 步 〈 如 正 态 分 布 ) 中 采样 m 个 样本 { 21,27,...2" Jo 
© 利用 梯度 下 降 法 更 新 G， 以 求 获得 最 小 的 V: V-E(logD(G(z))) 


其 实 梯度 下 降 与 梯度 上 升 法 本 质 上 一 样 ， 只 需要 在 目标 函数 前 乘 上 一 个 负 号 ， 两 者 
过 程 就 可 以 相互 转换 。 训 练 D 的 时 候 ， 主 要 是 将 真实 样本 x 尽 量 判断 为 好 (接近 1) ， 
而 将 G 生成 的 样本 ? 判断 为 不 好 〈 接 近 0) ， 然 后 一 般 每 次 迭代 需要 训练 多 次 。 训 练 G 
的 时 候 ， 主 要 目的 是 提高 生成 网 络 的 能 力 ， 到 达 让 判别 网 络 D 难以 分 清 的 效果 ， 它 一 般 
每 次 迭代 只 训练 一 次 。 最 后 在 每 次 迭代 的 时 候 ， 这 两 种 训练 交 蔡 进 行 。 

所 获取 的 真实 的 图 片 样本 库 其 实 是 服从 一 定 分 布 的， 不 光 对 于 图 像 ， 对 于 其 他 事件 
都 可 以 这 样 理解 。 而 GAN 最 终 想 达到 的 效果 是 学 习 一 个 生成 网 络 ， 它 能 在 一 个 无 限 接 
近 真 实 样本 的 分 布 中 去 采样 。 衡 量 两 个 分 布 相似 的 方法 有 JS 散 度 “、KL 散 度 " 等， 原始 
GAN 中 使 用 的 是 JS 散 度 。 


1. DCGAN 

DCGAN 就 是 将 GAN 和 CNN 结合 起 来 ， 论 文 名 为 Unsupervised Representation 
Learning with Deep Convolutional Generative Adversarial Network, DCGAN 中 的 G 和 D 
都 是 CNN 网 络 ， 同 时 取消 了 池 化 层 ，G 中 使 用 转 置 卷 积 并 利用 步 长 来 达到 上 采样 生成 


6 https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon divergence 
7 https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence 
8 https://arxiv.org/abs/1511.06434 
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图 片 的 效果 。 网 络 中 使 用 了 Batch Normalization 并 去 掉 了 全 连接 层 ， 在 G 中 使 用 RELU 
激活 函数 ， 最 后 一 层 使 用 tanh 激活 ， 而 在 D 中 使 用 LeakyRELU 激活 。 

DCGAN 开源 项 目 主要 有 二 次 元 动漫 ”和 游戏 人 物 生 成 , 使 用 其 他 框架 应 该 也 可 以 达 
到 类 似 效果 ， 有 兴趣 的 读者 可 以 进行 尝试 (请 注意 对 应 实现 所 使 用 的 框架 版 本 〉。 


2. LSGAN 
LSGAN 的 全 称 是 Least Squares Generative Adversarial Networks? (最 小 二 乘 生成 网 
络 ) ， 主 要 就 是 将 sigmoid 操作 变 为 线性 操作 ， 即 将 二 分 类 问题 转换 为 回归 问题 。 


3. WGAN 与 WGAN-GP 
WGAN 的 全 称 是 Wasserstein GAN， 论 文 名 称 为 Towards Principled Methods for Training 
Generative Adversarial Networks"， 有 对 应 的 开源 代码 “。 它 对 传统 的 GAN 做 了 以 下 主要 改进 : 


(1) 计算 损失 函数 时 使 用 Wasserstein 距离 ， 且 不 取 log: 


V(G,D)- max LE, [DG] - E,.,, [DO 


Del- Lipschitz 
(2) 判别 网 络 DD 最 后 一 层 去 sigmoid 操作 。 
G) 将 网 络 的 参数 限制 在 一 定 范围 ， 如 [-c, c], AWE Lipschitz 条 件 。 


其 具体 算法 流程 如 图 8-5 所 示 。 


Algorithm 1 WGAN, our proposed algorithm. All experiments in the paper used 
the default values a = 0.00005, c = 0.01, m = 64, Heite = 5. 
Require: : o, the learning rate. c, the clipping parameter. m, the batch size. 
Neritic, the number of iterations of the critic per generator iteration. 

Require: : wo, initial critic parameters. 6o, initial generator's parameters. 

1: while @ has not converged do 

2: for t = 0, ..., neritic do 

Sample {2\}™, ~P, a batch from the real data. 





3: 
4 Sample (2(?)7, ~ p(z) a batch of prior samples. 
5 gu *- Vo [3 Din fu (209) — A Ei fu(go(29)))] 
6: w + w +a- RMSProp(w, gw) 

7: w + clip(w, —c, c) 

8: end for 

9: Sample (z(?)7, ~ p(z) a batch of prior samples. 

10 go t -Vok Di fu (go(2'9)) 

11: 0 — 0 — a - RMSProp(0, go) 

12: end while 





图 8-5 WGAN 的 算法 流程 


9 https://github.com/mattya/chainer-DCGAN 

10 https://arxiv.org/abs/1611.04076 

11 https://arxiv.org/abs/1701.07875 

12 https://github.com/martinarjovsky/WassersteinGAN 
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传统 的 JS 散 度 很 难 衡量 两 种 数据 分 步 相交 (如 图 8-6 所 示 ) 较 少 的 情况 ， 且 常见 的 
情况 是 采样 的 量 不 知道 是 否 足够 大 。 如 果 两 种 分 步 不 相交 ， 那 么 JS 散 度 就 为 log2， 意 
味 着 不 论 训练 多 久 ， 其 /oss 会 保持 不 变 ， 即 如 果 有 两 种 不 相交 的 分 步 ， 使 用 二 分 类 的 网 
络 就 可 以 解决 问题 。 

Wasserstein 距离 ， 又 称 Earth-Mover 距离 。 如 果 抛 开 复杂 的 数学 公式 ， 可 以 作 如 下 
形象 地 理解 ， 如 图 8-7 所 示 ， 有 两 堆 土 ， 堆 放 的 形式 不 一 样 ， 用 推土机 对 其 中 一 堆 土 
进行 移动 ， 直 到 两 堆 土 形 式 一 样 ， 即 分 步 相同 ， 那 么 此 时 推土机 平均 移动 的 距离 就 是 
Wasserstein 距离 ， 可 以 使 用 W(P, Q)-d 表示 。 


P Q 
UI 


图 8-6 分 步 相交 示意 图 8-7 Wasserstein 距离 一 
那么 当 土 堆 分 步 的 维度 较 高 时 ， 又 会 出 现 什么 情况 呢 ? 那 会 面临 着 非常 多 的 移动 组 
合 ， 即 对 部 分 土 有 很 多 种 先后 移动 顺序 的 组 合 。 以 完成 一 次 分 步 重合 的 所 有 移动 为 单位 ， 
算出 这 种 策略 的 平均 距离 ， 然 后 类 似 地 算出 其 他 策略 的 平均 距离 ， 取 最 小 的 平均 距离 作 
J Wasserstein 距离 ， 这 是 一 个 穷 举 ， 然 后 找 最 小 的 过 程 ， 可 参考 图 8-8。 它 与 JS HI KL 
散 度 相 比 优势 在 于 ， 即 使 两 种 分 步 不 相交 不 重合 ， 也 能 反映 分 步 的 相似 程度 (或 远近 〉。 


移动 策略 1 移动 策略 2 
P 
e lf, ain... 


8-8 Wasserstein 距离 二 
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WGAN 从 理论 上 解释 了 GAN 训练 不 稳定 的 原因 ， 即 损失 函数 不 适用 于 衡量 不 相交 
分 步 之 间 的 距离 ， 而 使 用 Wasserstein 距离 则 解决 了 这 个 问题 ， 同 时 也 比较 有 效 地 避免 了 
model collapse 问题 ， 使 得 生成 的 样本 更 加 具有 多 样 性 。 

WGAN-GP” 是 改进 版 的 WGAN， 主 要 改进 了 连续 性 限制 条 件 。 可 以 观察 到 ， 进 行 权 
重 参数 剪 切 [-c, c] 后 ， 大 多 数 权重 会 在 -c 和 c 上 和 集中， 这 就 限制 了 深度 神经 网 络 的 能 力 ; 
同时 强行 剪 切 权重 还 易 引起 梯度 消失 和 梯度 爆炸 问题 ， 导 致 无 法 训练 或 训练 不 稳定 。 

基于 以 上 观察 ， 作 者 提出 了 梯度 惩罚 理论 ， 即 gradient penalty， 简 称 GP。 它 能 提供 
比 标准 WGAN 更 快 的 收敛 速度 ， 同 时 生成 质量 更 高 的 样本 ， 模 型 训练 稳定 ， 调 参 难度 
相对 较 小 : 


V(G.D) ~ max {En [DO] -E.r [DO -4E, {max(0,|V,D@)|-1] 


Band 


4. BEGAN 

BEGAN 的 全 称 为 BEGAN (Boundary Equilibrium Generative Adversarial Networks", iz 
界 均衡 生成 对 抗 网 络 )。 该 论文 由 Google 出 品 , 提出 了 一 种 新 的 评价 生成 图 片 质量 的 方法 ， 
使 得 GAN 可 以 运用 简单 的 网 络 也 能 获得 好 的 训练 效果 ，, 同时 不 需要 使 用 其 他 常规 技巧 。 

以 前 的 GAN 和 相关 变种 都 希望 生成 的 数据 分 步 无 限 副 近 真 实 的 数据 分 步 ， 即 G 有 
能 力 举一反三 或 以 假 乱 真 ， 这 里 面 效果 不 错 的 有 DCGAN, WGAN 和 WGAN-GP。 

BEGAN 则 使 用 类 似 曲 线 救国 的 方法 ， 不 再 是 直接 评估 生成 分 步 和 真实 分 步 之 间 的 
差异 ， 而 是 评估 两 者 误差 之 间 的 差异 ， 这 里 的 误差 也 是 某 种 分 步 。 

其 网 络 结构 如 图 8-9 所 示 ， 判 别 网 络 使 用 Auto Encoder 结构 。 


Discriminator 


real 
z 一 Generato \ 
G(z) 





图 8-9 BEGAN 结构 


13 https://arxiv.org/abs/1704.00028 
14 https://arxiv.org/abs/1703.10717 
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Generator 和 Discriminator 的 损失 函数 分 别 定义 如 下 : 
Lossy = L(x) - k, * L[G(z5] 
LossG = L[G(z;] 
ka =k, +A 0L0)- HGGG)IT 
其 中 的 Loo) 就 是 像素 级 累积 差异 的 均值 ， 如 果 将 x 看 作 是 一 个 三 维 ( 灰 度 图 为 一 维 ) 
DORIS, auto encoder 表示 图 像 映 射 到 低 维 空间 再 还 原 的 操作 ， 那 么 L(x) 可 以 使 用 
以 下 式 子 表达 : 





L(x) = Mean(Sum(abs(x —auto | encoder(x)))) 


7 则 是 使 用 线性 控制 理论 来 平衡 生成 的 图 片 和 真实 图 片 的 损失 期 望 ， 论 文 称 其 为 差 
异 比例 。 





_ ELL(G(z))] 
E[L(x] 
然后 再 使 用 4 入 生来 调整 整个 Discriminator 的 总 损失 函数 。 有 具体 可 以 参阅 原 论文 的 
详细 论述 。 
这 里 使 用 carpedm20 开源 的 BEGAN MA P 进行 训练 与 测试 ， 其 结果 如 图 8-10 所 示 。 





40k 


210k 








到 8-10 BEGAN 实验 结 











15 https://github.com/carpedm20/BEGAN-tensorflow 
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495k 
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图 8-10 BEGAN 实验 结果 (4%) 


从 以 上 结果 可 以 看 出 ， 在 训练 了 40 万 轮 之 后 ， 所 生成 的 图 片 虽然 头发 和 外 部 轮廓 
还 不 十 分 完美 ， 但 脸 部 细节 已 经 出 现 不 错 的 结果 ; 训练 21 万 轮 后 ， 总 体 结果 已 得 到 非 
常 大 的 改善 ， 随 着 训练 轮 数 的 增加 ， 最 后 的 图 片 也 更 加 接近 真实 场景 。 最 后 可 以 观察 到 ， 
有 很 多 图 片 人 类 都 难以 分 辨 清楚 是 真是 假 了 ， 说 明 这 个 网 络 结构 总 体 还 是 非常 不 错 的 。 

















另外 carpedm20 也 开源 了 PyTorch 版 本 “， 习 惯 使 用 PyTorch 的 读者 可 以 尝试 。 
GAN 的 变形 种 类 非常 多 ， 那 么 效果 到 底 如 何 呢 ? Google 在 2018 年 发 表 了 Are 





16 https://github.com/carpedm20/BEGAN-pytorch 
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GANs Created Equal? A Large-Scale Study" 的 论文 。 文 章 提 到 目前 暂时 对 GAN 模型 还 没 
有 统一 评价 优 劣 的 客观 指标 ， 同 时 也 很 少 在 同一 计算 成 本 情况 下 进行 比 对 。 所 以 他 们 使 
FAY IS fü FID 两 种 指标 来 进行 比较 ， 通 过 实验 证 明 ， 各 种 GAN 没有 特别 的 优 劣 之 分 。 
有 兴趣 的 读者 可 以 阅读 这 篇 论文 , 同时 Google 也 开源 了 相关 的 代码 ”以 供 大 家 学 习 研 究 。 

2018 年 Nvidia 在 ICLR 会 议 上 发 表 了 高 清 图 像 生 成 论文 Progressive Growing of 
GANSs for Improved Quality, Stability, and Variation". 8-11 是 其 生成 的 假 的 图 片 ， 已 
达到 了 以 假 乱 真 的 效果 。 





图 8-11 PG GAN 生成 图 片 样本 
论文 代码 也 进行 了 开源 ”可 以 从 其 ReadMe 看 出 ， 单 GPU 训练 高 清 图 片 


(1024X1024) 时 间 需 要 约 两 周 ，8 块 GPU 则 需要 两 天 ， 所 以 这 个 训练 是 非常 耗 时 的 ， 
有 兴趣 的 读者 可 以 尝试 训练 ， 并 应 用 自己 的 数据 集 。 


8.2.2 Chainer DCGAN RPG 游戏 角色 生成 示例 


此 处 使 用 的 是 开源 的 DCGAN”， 感 谢 原作 者 Seitaro Shinagawa 提供 了 这 个 非常 实 
用 的 例子 ， 但 作者 使 用 的 是 老 版 本 的 Chainer， 故 这 里 会 在 此 尝试 进行 少许 的 修改 ， 以 
满足 最 新 版 本 Chainer 的 需求 。 

首先 删除 原作 者 的 rrpo， 然 后 修改 oan pv 和 train gan.py 两 个 文件 。 其 中 gan.py € 
要 将 “, test=test” 删 掉 即 可 ， 因 为 新 版 Chainer 中 使 用 chainer.using config('train', True/ 
False) 来 切换 训练 或 测试 模式 ， 修 改 好 的 代码 如 下 : 


17 https://arxiv.org/abs/1711.10337 

18 https://github.com/google/compare gan 

19 https://arxiv.org/pdf/1710.10196.pdf 

20 https://github.com/tkarras/progressive growing of gans 
21 https://github.com/SeitaroShinagawa/DCGAN-chainer 
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import chainer 
import chainer.cuda 
import chainer.functions as F 


import chainer.links as L 


import numpy as np 


d 

2 

3 

4 

5 import chainer.optimizers 
6 

i 

8 

9 def init normal(links, sigma): 
0 


1 for link in links: 

11 shape = link.W.data.shape 

12 link.W.data[...] = np.random.normal(0, sigma, shape). 
astype (np.float32) 

13 

14 class Generator (chainer.Chain): 

15 

16 n_hidden = 100 

17 sigma = 0.01 

18 

19 def _ init (self): 

20 super (Generator, self). init ( 

21 fc5-L.Linear(100, 512 * 4 * 4), 

22 norm5-L.BatchNormalization(512 * 4 * 4), 

23 conv4-L.Deconvolution2D(512, 256, ksize-4, 
stride-2, pad-1), 

24 norm4-L.BatchNormalization(256), 

25 conv3-L.Deconvolution2D(256, 128, ksize-4, 
stride-2, pad-1), 

26 norm3-L.BatchNormalization(128), 

27 conv2-L.Deconvolution2D(128, 64, ksize=4, 
stride-2, pad-1), 

28 norm2-L.BatchNormalization(64), 

29 convi-L.Deconvolution2D(64, 3, ksize-4, 
stride-2, pad-1)) 

30 init normal( 

31 [self.conv1, self.conv2, self.conv3, 

Jus self.conv4, self.fc5], self.sigma) 
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3 

34 

35 def _ call (self; z); 

36 n_sample = z.data.shape[0] 

a h = F.relu(self.norm5 (self.fc5(z))) 

38 h = F-reshape(h, (n_sample, 512, 4, 4)) 

39 h = F.relu(self.norm4 (self.conv4 (h))) 

40 h = F.relu(self.norm3(self.conv3(h))) 

41 h = F.relu(self.norm2 (self.conv2 (h) )) 

42 x = F.sigmoid(self.convl (h) ) 

43 return x 

44 def make optimizer (self): 

45 return chainer.optimizers.Adam(alpha=le-4, betal=0.5) 

46 

47 def generate hidden variables(self, n): # n:batchsize 

48 return np.asarray( 

49 np.random.uniform( 

50 low--1.0, high-1.0, size-(n, self.n hidden)), 

5t dtype-np.float32) 

52 

53 

54 class Discriminator (chainer.Chain): 

55 

56 sigma = 0.01 

57 

58 def init (self): 

59 super (Discriminator, self). init _ ( 

60 conv1=L.Convolution2D (3, 64, ksize=4, stride=2, 
pad=1), 

61 conv2=L.Convolution2D(64, 128, ksize=4, stride=2, 
pad=1), 

62 norm2=L.BatchNormalization (128), 

63 conv3=L.Convolution2D(128, 256, ksize=4, stride=2, 
pad=1), 

64 norm3=L.BatchNormalization (256), 

65 conv4=L.Convolution2D(256, 512, ksize=4, stride=2, 
pad=1), 
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66 norm4-L.BatchNormalization (512), 

67 fc5-L.Linear(512 * 4 * 4, 1)) 

68 init normal( 

69 [self.convl, self.conv2, self.conv3, 

70 self.conv4, self.fc5], self.sigma) 

71 

T def call (self, x; £E): 

了 3 n sample = x.data.shape[0] 

74 h = F.leaky relu(self.conv1 (x)) 

75 h = F.leaky relu(self.norm2 (self.conv2 (h))) 

76 h = F.leaky relu(self.norm3 (self.conv3(h) )) 

了 7 h = F.leaky relu(self.norm4 (self.conv4 (h))) 

78 y = self.fc5(h) 

79 return F.sigmoid(y), F.sigmoid cross entropy(y, t) 
80 

81 def make optimizer (self): 

82 return chainer.optimizers.Adam(alpha-1e-4, betal-0.5) 


而 对 于 主 训练 文件 train_gan.py， 修 改 后 的 代码 如 下 : 


import os 
import sys 
import numpy as np 


import cupy as cp 


2 
3 
4 
5 from RPGCharacters_util import RPGCharacters 
6 from gan import Generator,Discriminator 

7 import chainer 

8 from chainer import Variable,cuda,optimizers,serializers 
9 from PIL import Image 

0 import random 


11 random. seed (0) 


13 save_path=sys.argv[1] 

14 if not os.path.exists(save path): 

1S os.mkdir (save_path) 

16 if not os.path.exists(f"[save path]/model"): 
abr os.mkdir(f"{save_path}/model") 

18 
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19 
20 
21 
22 
25 
24 
25 
26 
27 
28 
29 


def clip(a): 
return 0 if a«0 else (255 if a>255 else a) 
def array to img(im): 


im = im*255 

im = np.vectorize(clip) (im) .astype (np. uint8) 
im=im.transpose (1,2,0) 

img=Image . fromarray (im) 


return img 


def save img(img array,save path): #save from np.array 


(3, height, width) 


30 
31 
32 
33 
34 
35 
36 
Sit 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
5S 
54 


img = array to img(img array) 


img.save(save path) 


Gen = Generator () 


Dis = Discriminator () 


gpu = 1 
if gpu>=0: 
xp = cuda.cupy 
cuda.get device (gpu) .use () 
Gen.to gpu() 
Dis.to gpu() 


else: 


xp = np 


optG = Gen.make_optimizer () 
optD = Dis.make_optimizer () 
optG. setup (Gen) 
optD.setup (Dis) 


real = RPGCharacters () 
trainsize=real.train_size 


testsize=real.test size 


batchsize = 64 
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55 max epoch = 100 

56 for epoch in range (max epoch): 
S7 loss_fake_gen 0.0 

58 loss_fake dis = 0.0 

59 loss real dis = 0.0 

60 n fake gen - 0 

61 n fake dis = 0 

62 n real dis = 0 

63 


64 with chainer.using config('train', True): 


65 for data,charaid,poseid in real.gen train(batchsize): 
66 rand = random.uniform(0,1) 

67 B = data.shape[0] 

68 ef rand «0072: 

69 Dis.cleargrads () 

70 

TE x = Variable (xp.array (data) ) 

72 label real = Variable (xp.ones((B,1),dtype-xp.int32)) 
73 

74 y, loss = Dis(x,label real) 

75 loss_real_dis += loss.data 

76 loss.backward() 

77 optD.update () 

78 n real dis += B 

T9 elif rand < 0.4: 

80 Dis.cleargrads() 

81 

82 z = Gen.generate hidden variables (B) 

83 x = Gen (Variable (xp.array (z))) 

84 label real = Variable (xp.zeros((B,1),dtype-xp.int32)) 
85 Y, losa = Disi(xrlabel real) 

86 loss_fake_dis += loss.data 

87 loss.backward() 

88 optD.update () 

89 n fake dis += B 

90 else: 

91 Gen.cleargrads() 
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Dis.cleargrads() 


z Gen.generate hidden variables (B) 

x = Gen (Variable (xp.array (z))) 

label fake = Variable (xp.ones((B,1),dtype-xp.int32)) 
y, loss - Dis(x,label fake) 

loss fake gen += loss.data 

loss.backward() 

optG.update () 

n fake gen += B 


sys.stdout.write(f"\rtrain... epoch{epoch}, (n real 


dis*n fake dis*n fake gen]/(trainsize]") 


03 
104 
105 
06 


sys.stdout.flush () 


with chainer.using config('train', False), chainer.no 


backprop mode (): 


07 
08 
09 
10 
EH 
12 
T3 
114 
15 
16 
TET 
118 


z = Gen.generate hidden variables (batchsize) 

Gen (Variable (xp.array(z))) #(B,3,64,64) B:batchsize 
x.to cpu() 

tmp = np.transpose (x.data, (1,0,2,3)) £(3,B,64,64) 

img array-[] 


x 


for i in range(3): 
img array2-[] 
for j in range (0,batchsize,8): 
img=tmp [i] [j:3+8] 
img=np . transpose (img. reshape (64*8, 64), (1,0) ) 
img_array2.append (img) 


img array2-np.array (img array2).reshape (int (batchsi 


ze/8*64),8*64) 





LE 
120 
121 
122 
123 


img array.append (np.transpose (img array2, (1,0))) 
img_array = np.array (img_array) 
print ("\nsave fig...") 
save_img(img_array,f"{save_path}/{str (epoch) .zfill (3) }.png") 
print (f"fake_gen_loss:{loss_ fake gen/n fake gen} (all/{n_ 


fake_gen}), \ 


124 
dis}), 


fake dis loss:{loss fake dis/n fake disl(all/fn fake 
S 
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125 real dis_loss:{loss_real dis/n real dis) (all/(ín real 
dis})") #losses are approximated values 
126 print('save model ...') 
Jos prefix = f"(save path) /model/str (epoch) .zfill(3)" 
128 if os.path.exists (prefix) --False: 
129 os.mkdir (prefix) 
130 serializers.save_npz(f"{prefix}/Geights", Gen.to cpu()) 
131 serializers.save_npz(f"{prefix}/Goptimizer", optG) 
132 serializers.save_npz(f"{prefix}/Dweights", Dis.to cpu()) 
133 serializers.save_npz(f"{prefix}/Doptimizer", optD) 
34 Gen.to_gpu() 
135 Dis.to gpu() 
36 
T3 real belief mean = 0.0 
138 fake belief mean - 0.0 


39 for j, (data,charaid,poseid) in enumerate (real.gen_ 
test (batchsize)): 


40 x = Variable (xp.array (data) ) 

41 B = x.shape[0] 

42 label = Variable (xp.ones((B,1),dtype-xp.int32)) 

43 with chainer.using config('train', False), chainer.no_ 
backprop mode(): 

44 y, loss = Dis (x,label) 

45 real belief mean += xp.sum(y.data) 

146 sys.stdout.write(f"\rtest real...{j}/{testsize/ 

batchsize}") 

47 sys.stdout.flush () 


148 print(f" test real belief mean:(real belief mean/testsize} 


((real belief mean}/{testsize})") 





49 for j, (data,charaid,poseid) in enumerate(real.gen 


test (batchsize)): 


150 z = Gen.generate hidden variables (batchsize) 

151 x = Gen (Variable (xp.array (z))) 

152 label = Variable (xp.zeros((batchsize,1),dtype-xp. 
int32)) 

153 with chainer.using config('train', False), chainer.no 


backprop mode(): 
154 y, loss - Dis (x,label) 
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155 fake belief mean += xp.sum(y.data) 
156 sys.stdout.write(f"Nrtest fake...{j}/{testsize}") 
157 sys.stdout.flush () 


158 print (f" test fake belief mean: {fake belief mean/testsize] 
((fake belief mean]/[(testsize/batchsize])") 


文件 主要 添加 了 第 66 行 及 对 应 缩 进 ， 使 得 网 络 进入 训练 模式 ， 然 后 添加 了 第 108 
行 、 第 145 行 和 第 155 行 ， 并 将 对 应 代码 块 进行 了 缩 进 ， 使 得 网 络 进入 测试 模式 ， 并 不 
使 用 后 传 模式 (no backprop mode) ， 以 加 速 运行 。 另 外 对 打印 输出 作 了 少许 修改 ， 但 
是 不 修改 也 没 问 题 。 
其 整个 过 程 如 下 : 
(1) 使 用 RPGCharacters_util.py 对 输入 目录 的 图 片 进行 处 理 ， 每 张 图 片 都 是 一 个 角 
色 的 图 片 ， 里 面包 含 6X9 个 不 同 姿势 的 同一 角色 图 片 ，RPGCharacters 会 为 每 张 图 片 生 
成 一 个 独 有 的 角色 ID， 然 后 对 每 张 图 片 中 每 个 位 置 的 小 图 片 生成 一 个 独 有 的 姿势 ID， 
最 后 将 图 片 矩阵 、 角 色 ID 和 姿势 ID 分 别 保存 起 来 。 
(2) RPGCharacters_util.py 会 将 数据 集 分 为 训练 集 (60 000 个 角色 ) 和 测试 集 (2 000 
个 角色 ) ， 并 提供 对 应 的 生成 器 函数 。 在 训练 文件 中 ， 训 练 过 程 分 为 三 种 情况 ， 使 用 
rand 随机 值 来 区 分 。 


Orand <0.2， 使 用 真实 数据 训练 D. 
Q)0.2«rand <0.4， 使 用 生成 数据 来 训练 D. 
© 其 他 情况 ， 使 用 生成 数据 来 训练 G， 此 时 DD 不 动 。 


(4) 使 用 G 来 生成 虚假 的 图 片 ， 并 按 8X8 排列 起 来 形成 一 张 图 片 ， 每 轮 都 会 生成 
一 张大 的 虚假 图 片 。 

(5) 最 后 是 保存 模型 和 测试 。 

训练 后 的 结果 如 图 8-12 所 示 ， 这 里 只 展示 了 最 后 几 轮 生成 的 结果 ， 可 以 看 出 其 质 


量 非 常 不 错 ， 虽 然 有 的 部 分 会 有 瑕 疫 ， 但 将 其 应 用 在 手机 小 尺寸 的 屏幕 上 时 ， 游 戏 玩家 
可 能 会 接受 这 些 图 片 的 质量 。 当 然 这 些 都 还 有 调 参 的 空间 ， 有 兴趣 的 读者 可 以 自行 尝试 。 
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图 8-13 Style Transfer 示意 图 


目前 工业 应 用 的 主要 有 Prisma、Ostagram 和 Deep Forger 等 。 
Style Transfer 中 的 风格 图 片 常常 使 用 的 是 某 些 艺术 家 的 作品 ， 这 些 作品 通常 会 与 人 


们 拍摄 的 现实 自然 场景 图 片 有 非常 大 的 不 同 ， 包 括 但 不 仅 限于 颜色 、 线 条 、 轮 廓 等 ， 而 
原 图 则 是 指 人 们 所 拍 的 自然 图 片 。 


2015 年 德国 的 研究 员 发 表 了 两 篇 文章 : A Neural Algorithm of Artistic Style” 和 


Texture Synthesis Using Convolutional Neural Networks”, 18Jf Y Neural Style Transfer 的 
序幕 ， 即 使 用 神经 网 络 来 进行 Style Transfer. 


2016 年 Justin Johnson (斯 坦 福 大 学 计算 机 视觉 课程 CS231 的 讲师 ) 发 表 了 


Perceptual Losses for Real-Time Sytle Transfer and Super-Resolution*， 实 现 了 更 加 快速 的 
转换 方法 。 


2017 年 出 现 了 ALeamed Representation for Artistic Style”. 
2017 年 Cornell 大 学 和 Adobe 公司 做 了 一 次 真实 场景 风格 转换 的 尝试 ， 并 撰写 文章 


Deep Photo Style Transfer“。 其 转换 结果 令 人 惊讶 ， 相 比 于 其 他 方法 ， 此 转换 更 加 可 靠 ， 
代码 也 已 开源 ”。 


https://arxiv.org/abs/1508.06576 
https://arxiv.org/abs/1505.07376 
https://arxiv.org/abs/1603.08155 
https://arxiv.org/pdf/1610.07629.pdf 
https://arxiv.org/abs/1703.07511 
https://github.com/luanfujun/deep-photo-styletransfer 
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2018 年 Neural Style Transfer 发 表 了 论文 A Review, Xt H BI] Style Transfer 进行 了 
综述 ， 有 兴趣 的 读者 可 以 查看 原 论文 。 

2018 年 Nvidia A F] A x T W X A Closed-form Solution to Photorealistic Image 
Stylization". 

Style Transfer 的 输入 过 程 如 下 : 待 转换 的 图 片 A 与 风格 图 片 B， 输 出 则 为 图 片 C。 
希望 达到 以 下 效果 : A 和 C 在 内 容 和 细节 上 尽量 相似 ， 而 B 和 C 在 风格 上 尽量 相似 。 
对 应 地 ， 为 了 衡量 这 种 相似 差异 ， 有 所 谓 的 content loss CA 与 C 之 间 ) 和 style loss (B 
和 C 之 间 ) 。 总 的 差异 可 以 使 用 以 下 变量 表达 : 


LOSS ota = GLOSS content BLOSS, 


其 中 a 和 是 用 来 平衡 两 种 loss 的 关系 。 

对 于 图 像 的 内 容 和 风格 的 理解 其 实 是 非常 主观 的 一 个 过 程 ， 故 在 数学 上 对 这 两 种 
loss 也 很 难 有 统一 且 准 确 的 定义 。 目 前 content loss 常常 使 用 每 个 像素 间 的 累积 差异 ， 也 
称 pixel-wise loss， 即 让 像素 间 的 差异 越 小 越 好 ; 而 Justin Johnson 则 提出 使 用 perceptual 
loss 计算 图 像 高 层 语义 级 别 的 差异 。 

对 于 风格 特征 ， 目 前 常常 使 用 Gram 和 矩阵 来 表达 。 对 于 CNN 网 络 来 说 ， 每 一 层 都 
会 对 应 有 一 个 输出 ， 输 出 形状 为 HXWXC， 即 高 3E X 通道 数 。 那 么 从 通道 这 个 维 
度 理解 ， 每 层 的 输出 就 是 一 个 维度 为 C 的 向 量 ，[C1, C2, C3, .…, Cn], Cn 就 表示 第 i 层 
的 feature map 矩阵 (HXW) 张 量 。 然 后 使 用 类 似 协 方差 的 概念 ， 可 以 计算 出 当前 层 输 
出 变量 的 Gram: 


C 1 C D Cc n 

C. 0 om 
Gram = 

Co. 6 C, 


但 与 真正 的 协 方差 不 同 ， 此 处 的 Ci 是 第 i 层 的 HXW 矩 张 量 五 与 第 7 RA HCW 
矩 张 量 五 对 应 元 素 〈 逐 元 素 ，element-wise) 乘积 之 和 ， 即 


HW 


C= MF,*F, 
k=1 


28 https://arxiv.org/abs/1705.04058 
29 https://arxiv.org/abs/1802.06474 
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然后 计算 风格 图 片 与 生成 的 图 片 之 间 的 差异 ， 就 得 到 Loss... ATW Gram 矩阵 
忽略 了 空间 信息 ， 而 且 是 对 称 的 ， 它 是 在 CNN 特征 信息 的 基础 上 进行 了 二 次 信息 提取 ， 
有 具有 全 局 性 。 实 践 证 明 ，Gram 在 风格 纹理 方面 有 较 强 的 表达 能 力 ， 适 用 于 风格 转换 这 
类 任务 。 


8.3.2 MXNet 多 风格 转换 MSG-Net 示例 


2017 年 Amazon 的 张 航 做 了 一 次 多 风格 转换 尝试 ，Multi-style Generative Network 
for Real-time Transfer"， 分 别 开 源 了 三 个 框架 的 版 本 ， 即 PyTorch, MXNet 和 Torch. 

MSG-Net 结构 如 图 8-14 所 示 ， 其 上 采样 过 程 使 用 了 整数 卷 积 操 作 〈 带 残 差 结构 ) ， 
风格 衡量 使 用 的 是 Gram， 内 容 衡量 则 使 用 的 是 逐 像素 对 比 。 


r- — Multi-style Generative Network =~ 


Siamese Network | 
| I E 1 





l 

l 

一 一 一 一 一 l 
Loss Network vec)! 


Relu3_3 






图 8-14 MSG-Net 结构 


模型 总 的 优化 目标 如 下 表 所 示 ， 主 要 是 计算 某 层 feature map 的 内 容 差 异 (Relu3 3) 
和 其 他 几 层 的 风格 差异 (Relul 2，Relu2 2，Relu 3 3，Relu4 3) 。 文 章 中 指出 网 络 会 
去 学 习 一 个 Gram 的 权重 矩阵 WET IWR A, 另外 还 使 用 Cholesky Decomposition 技术 。 
使 用 ITV 主要 是 为 了 使 得 生成 的 图 像 更 加 平滑 ， 计 算 差 异 的 网 络 使 用 的 是 VGG。MSG- 
Net 的 优化 目标 如 图 8-15 所 示 。 
We = argmin Es. a. { 
AIF Gs. 2.) — F") 
P! =argmin{ |V — £I P +A SIG (F GG n.) - GC G2 
+a 90%) éist, XT [one etre) Ge count 
图 8-15 MSG 优化 目标 


30 https://arxiv.org/pdf/1703.06953.pdf 
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这 里 使 用 了 对 应 的 MXNet 版 本 >”， 如 果 只 使 用 开源 作者 的 模型 ， 利 用 python 
models/download model pa 即 可 下 载 作者 的 模型 。 

然后 使 用 python main.py eval --content-image your image path --style-image images/ 
styles/candy.jpg --model models/21styles.params --content-size 1024 


从 option.py 文件 可 以 看 出 生成 图 片 主要 的 参数 如 下 。 


*  —contentimage: 内 容 图 片 路 径 。 

e  -style-image: 风格 图 片 路 径 (训练 中 所 使 用 过 的 风格 图 片 之 一 ) 。 
e -model: 模型 路 径 。 

e  —outputimage: 生成 图 片 的 保存 路 径 ， 默 认为 output.jpg。 

e  —contentsize: 内 容 图 片 最 长 边 大 小 。 

e --cuda: 1 使 用 GPU,0 使 用 CPU. 


使 用 作者 训练 的 模型 对 龙珠 超 中 的 悟空 和 广州 塔 进行 风格 转换 ， 对 应 结果 如 图 8-16 
和 图 8-17 所 示 。 


其 中 第 一 张 图 片 为 原 图 ， 剩 下 的 都 是 不 同 风格 转换 后 的 效果 。 为 了 看 到 更 多 细节 ， 
这 里 将 原 图 和 第 一 张 进行 转换 后 的 图 使 用 单独 的 行 显示 ， 其 他 结果 则 并 列 显示 。 








图 8-16 悟空 风格 转换 


31 https://github.com/zhanghang1989/MXNet-Gluon-Style-Transfer 
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ram A 


图 8-17 广州 塔 风格 转换 结果 〈 续 ) 


有 兴趣 的 读者 可 以 自行 尝试 ， 这 种 方式 优点 是 不 需要 单独 训练 ， 缺 点 是 风格 是 指定 
的 ， 作 者 预 训练 的 模型 使 用 的 风格 都 在 images/styles 中 。 

那么 如 果 读 者 想 针 对 自己 所 选 的 风格 进行 训练 ， 应 该 怎样 操作 呢 ? 这 就 需要 使 用 
main.py 中 的 train 函数 了 ， 其 主要 的 参数 都 可 以 参见 option.py 中 第 10-42 行 代码 。 原 作 
者 所 使 用 的 是 COCO2014 数据 集 ， 可 直接 使 用 作者 提供 的 脚本 下 载 并 解压 ， 也 可 直接 以 
数据 集 存 放 执行 以 下 语句 ， 实 质 与 脚本 一 样 : 





wget http://msvocds.blob.core.windows.net/coco2014/train2014.zip 
wget http://msvocds.blob.core.windows.net/coco2014/val2014.zip 
unzip train2014.zip 

unzip val2014.zip 


然后 执行 python main.py train --epochs 4， 便 可 进行 训练 ， 注 意 option.py 中 的 参数 。 
比如 此 时 读者 将 数据 存放 目录 修改 为 abs_coco2014，abs_coco2014 目录 下 有 train2014 和 
val2014 两 个 文件 夹 ， 那 么 应 该 使 用 --dataset abs_coco2014 进行 指定 。 
另外 对 于 GPU 这 块 ， 原 作者 使 用 的 是 以 下 语句 : 
if args.cuda: 
ctx = mx.gpu (0) 


else: 


ctx = mx.cpu (0) 
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即 表 示 args.cuda 为 非 0 时 使 用 服务 器 的 第 一 块 GPU， 而 args.cuda 为 0 时 则 使 用 
CPU， 但 如 果 读 者 有 多 块 GPU 且 多 人 共同 使 用 一 台 服 务 器 时 ， 此 时 笔者 认为 以 下 的 方 
式 会 更 加 适合 : 当 args.cuda 是 非 负 整数 时 就 表示 使 用 第 args.cudat1 Br GPU， 而 小 于 0 
时 使 用 CPU。 


if args.cuda >= 0: 
ctx = mx.gpu(args.cuda) 
else: 


ctx = mx.cpu(0) 


执行 训练 命令 行 中 的 体现 为 : --cuda 1， 使 用 第 2 3& GPU; —cuda 7， 使 用 第 8 块 
GPU; 第 一 块 GPU 就 使 用 --cuda 0 即 可 。 

在 Titan Xp GPU 服务 器 上 整个 训练 需要 约 8 小 时 。 

当然 以 上 都 是 笔者 的 建议 ， 读 者 可 振 柄 使用。 针对 PyTorch 版 本 ， 原 作者 还 加 了 个 
针对 视频 的 实时 风格 转换 脚本 ”， 使 用 PyTorch 的 读者 也 可 以 尝试 。 不 过 MXNet 版 本 也 
可 以 做 类 似 的 功能 ， 使 用 OpenCV 进行 视频 或 摄像 头 读 取 ， 然 后 取 帧 ， 进 行 转换 ， 输 出 
对 比 效果 即 可 。 


8.4 本 章 总 结 


本 章 首先 对 图 像 生 成 进行 了 简要 介绍 ， 然 后 就 三 大 主要 生成 技术 进行 了 探讨 ， 包 括 
VAE、GAN 和 Style Transfer。 

三 种 方法 各 有 优 缺 点 ， 读 者 可 根据 自己 的 实际 情况 进行 学 习 和 使 用 。 如 果 使 用 的 是 
小 尺寸 图 像 生成 ， 那 么 可 以 从 GAN 部 分 的 示例 中 看 到 ， 其 效果 还 是 很 不 错 的 ， 而 如 果 
想 进 行 风格 转移 ， 进 行 视 频 风格 转换 ， 那 么 现在 的 风格 转换 也 可 以 取得 不 错 的 效果 。 

但 总 的 来 说 ， 算 法 和 技术 日 新 月 异 ， 如 果 打 算 真 的 吃透 一 个 方向 ， 深 入 的 论文 阅读 
与 理解 ， 源 码 的 解读 或 自己 复 现 都 是 需要 花费 很 大 力气 的 。 笔 者 在 图 片 生 成 领域 经 验 较 
浅 , 在 此 只 是 给 读者 打开 了 一 扇面 向 图 像 生成 领域 的 窗口 ， 希 望 读 者 能 比 笔者 走 得 更 远 ， 
理解 得 更 加 透彻 。 





32 https://github.com/zhanghang1989/PyTorch-Multi-Style-Transfer 


后 记 


至 此 ， 本 书 的 主要 内 容 已 经 写 完 。 

从 深度 学 习 的 实践 来 看 ， 各 种 算法 都 有 一 定 的 局 限 ， 论 文 上 特别 好 的 结果 也 是 基于 
一 定 的 假设 ， 并 在 某 些 数据 集 上 取得 的 结果 。 在 现实 的 业务 场景 中 ， 应 该 仔细 对 比 数据 
分 步 、 假 设 以 及 预期 结果 等 因素 ， 然 后 有 针对 性 地 选择 算法 。 

面 对 现 实 问题 ， 只 要 能 解决 大 部 分 的 问题 ， 笔 者 认为 便 是 一 种 成 功 。 比 如 针对 缩减 
成 本 或 增加 收益 而 言 ， 如 果 在 原来 的 基础 上 ， 使 用 了 某 种 算法 或 技术 能 减少 30% 的 成 本 
或 增加 30% 的 收益 ， 那 么 这 种 应 用 就 是 有 实际 价值 的 。 

但 很 多 人 会 情不自禁 地 陷入 一 种 怪圈 : 必须 达到 80%、90%、95%， 才 会 觉得 是 可 
以 使 用 的 ， 才 能 体现 整个 团队 的 实力 和 价值 。 其 实 ， 简 单 朴素 并 有 效 才 是 一 种 很 好 的 工 
作 方 式 。 先 将 30% 应 用 到 实践 中 ， 再 不 断 地 提升 ， 进 而 递增 式 的 发 展 ， 也 许 能 取得 更 好 
效果 。 

对 于 AI 算法 中 的 过 拟 合 与 欠 拟 合 ， 笔 者 认为 它们 一 直 是 共存 的 ， 是 相对 的 ， 只 是 
观察 的 尺度 不 一 样 而 已 。 

抽象 为 图 1 示例 ， 当 拿 到 一 个 数据 集 ， 将 其 按 一 定 比例 分 为 train. test, validation 
三 部 分 ， 然 后 训练 测试 并 验证 取得 了 一 个 效果 非常 好 的 模型 ， 我 们 会 认为 这 个 模型 的 泛 
化 能 力 已 经 非常 好 了 。 但 现实 的 情况 是 数据 可 以 说 是 天 量 级 别 的 ， 世 间 那 么 多 数据 ， 
我 们 很 难 进 行 有 效 的 采样 ， 那 么 刚刚 的 模型 基于 的 数据 集 也 许 就 是 图 1 中 a 范围 内 的 数 
据 集 ， 当 把 模型 应 用 到 b 范围 的 数据 上 时 ， 还 能 确保 模型 的 泛 化 能 力 很 好 吗 ? 比如 在 
Mnist 上 训练 好 的 模型 ， 其 在 FashionMnist、Cifar-100、ImageNet、OID 上 面 的 效果 应 该 
会 有 很 大 的 差异 。 这 也 是 为 什么 遇 到 不 同 的 数据 集 ， 模 型 需要 重新 再 训练 的 一 个 原因 。 

另外 ， 在 某 一 尺度 数据 集 上 表现 得 很 好 的 网 络 设计 算法 设计 ) ， 在 另外 一 种 尺度 
上 效果 不 一 定 就 会 很 好 。 简 单 的 例子 就 是 图 像 分 类 与 图 像 分 割 ， 图 像 分 类 只 需要 关注 全 
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局 视觉 效应 即 可 达到 目标 ， 而 图 像 分 割 还 需要 注意 物体 边缘 的 特征 ， 从 而 在 分 类 的 基础 
上 再 将 边缘 分 割 开 来 〈 即 像素 分 类 ) 。 





图 1 过 拟 合 与 欠 拟 合 


在 训练 过 程 中 ，GPU 等 物理 设备 的 使 用 也 值得 注意 。 比 如 参数 batch-size， 如 果 是 
进行 图 像 分 类 ， 其 batch-size 可 以 设置 得 比较 大 ， 因 为 其 输入 是 一 张 图 片 ， 输 出 一 般 为 
一 个 1X1X#classes 的 长 向 量 ， 而 且 当 输入 图 片 较 小 时 ，batch-size 可 以 设置 的 更 大 ， 比 
如 Mnist 与 ImageNet 对 比 。 而 对 于 图 像 分 割 来 说 ， 因 其 输出 是 高 密度 的 矩阵 ， 输 出 往往 
假设 为 mXnX3 的 彩色 图 片 ， 一 般 输出 则 至 少 为 mXnX (classes) 的 大 矩阵 ， 所 以 其 
batch-size 一 般 较 小 。 整 个 模型 的 参数 体 量 也 是 需要 考虑 的 因素 ， 故 在 实际 工作 中 ， 需 要 
衡量 各 类 因素 。 使 用 GPU 并 行 就 是 空间 换 时 间 的 操作 ， 笔 者 认为 无 论 什 么 招式 ， 其 最 
终 需 要 的 操作 都 是 必须 执行 的 , 提速 主要 是 硬件 、 算 法 (执行 顺序 、 新 思路 ) 方面 的 提升 。 

目前 各 种 框架 版 本 迭代 十 分 快 ， 但 很 多 开源 项 目 都 是 基于 之 前 版 本 的 ， 读 者 在 借用 
别人 代码 的 过 程 中 需要 注意 这 一 点 。 如 果 版 本 不 一 样 ， 要 么 得 修改 代码 ， 要 么 得 使 用 原 
作者 所 用 版 本 。 

针对 目前 AI 很 火爆 这 个 现象 ， 笔 者 也 在 此 谈 谈 自己 的 感受 。AI 火爆 主要 基于 三 
方面 : 硬件 的 发 展 、 算 法 的 进步 和 投资 人 的 追捧 。 前 两 者 确实 是 有 质 的 提升 ， 然 后 加 上 
一 些 潜 在 应 用 变现 与 媒体 的 鼓吹 ， 投 资 人 一 哄 而 上 ， 这 个 主题 就 热 起 来 了 。AI 在 历史 上 
也 经 历 过 类 似 的 场景 ， 但 当 投 资 者 发 现 事 实 与 预期 不 符 时 ， 资 本 就 会 趋 于 冷静 ， 此 时 泡 
沫 就 会 爆破 ， 市 场 回 归 理 性 。 三 十 年 河东 ， 三 十 年 河西 ， 曾 经 的 诺基亚 、 摩 托 罗 拉 ， 现 
EERE? 目前 AI 应 用 真实 落地 相对 较 难 ， 产 生效 益 的 企业 或 应 用 屈指 可 数 ， 全 民 AI 
可 取 吗 ? 这 是 值得 深思 的 问题 。 


后 


如 果 读 者 希望 从 事 这 一 行业 ， 会 面临 着 方向 的 选择 ， 包 括 但 不 仅 限 于 分 类 、 分 割 、 
检测 、 追 踪 、 生 成 、OCR 等 ， 那 么 需要 认真 审视 自身 的 优势 和 劣势 ， 并 结合 市 场 环境 ， 
选择 一 个 方向 ， 剩 下 的 便 是 风雨 兼程 。 

如 果 读 者 只 是 希望 紧 跟 信 息 时 代 的 步伐 ， 开 拓 自 己 的 视野 ， 那 么 走马 观 花 地 阅读 本 
书 即 可 ， 另 外 还 可 涉猎 自然 语言 处 理 、 强 化 学 习 、 语 音 识别 、 搜 索 与 推荐 等 方面 的 资料 。 

学 海 无 涯 ， 技 术 日 新 月 异 ， 希 望 本 书 能 充当 一 叶 扁舟 ， 在 AI 这 个 知识 的 海洋 中 渡 
大 家 一 段 。 

最 后 ， 由 于 本 人 的 学 识 、 能 力 、 经 验 所 限 ， 此 书 只 是 抛砖引玉 ， 如 果 能 给 读者 带 来 
一 点 点 收获 ， 那 么 这 本 书 就 是 成 功 的 。 
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记 


